CN111861521A

CN111861521A - 数据处理方法、装置、计算机可读介质及电子设备

Info

Publication number: CN111861521A
Application number: CN201910345209.4A
Authority: CN
Inventors: 王相军; 黄承
Original assignee: Tenpay Payment Technology Co Ltd
Current assignee: Tenpay Payment Technology Co Ltd
Priority date: 2019-04-26
Filing date: 2019-04-26
Publication date: 2020-10-30

Abstract

本申请的实施例提供了一种数据处理方法、装置、计算机可读介质及电子设备。该数据处理方法包括：获取目标区域内针对指定业务的用户样本数据；基于所述用户样本数据确定与所述目标区域相关联的模型变量；根据所述用户样本数据和与所述目标区域相关联的模型变量，构建与所述目标区域相对应的针对所述指定业务的预测模型；通过所述预测模型从所述目标区域内的用户中识别出所述指定业务的潜在用户。本申请实施例的技术方案能够针对不同的区域和业务来识别潜在用户，实现了精细化的识别过程，进而可以得到更准确、更科学及更合理的识别结果。

Description

数据处理方法、装置、计算机可读介质及电子设备

技术领域

本申请涉及计算机及通信技术领域，具体而言，涉及一种数据处理方法、装置、计算机可读介质及电子设备。

背景技术

在业务推广过程中，比较常用的一种方式是粗狂式投放推送，即没有区分性和针对性地向广大用户进行投放，这种方式不仅成本较高，而且用户转化率较低。

发明内容

本申请的实施例提供了一种数据处理方法、装置、计算机可读介质及电子设备，进而至少在一定程度上可以针对不同的区域和业务来识别潜在用户，实现了精细化的识别过程，进而可以得到更准确、更科学及更合理的识别结果，以便于采取针对性的投放推送，有利于提高业务推广的转化效果，并且可以降低推广成本。

本申请的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本申请的实践而习得。

根据本申请实施例的一个方面，提供了一种数据处理方法，包括：获取目标区域内针对指定业务的用户样本数据；基于所述用户样本数据确定与所述目标区域相关联的模型变量；根据所述用户样本数据和与所述目标区域相关联的模型变量，构建与所述目标区域相对应的针对所述指定业务的预测模型；通过所述预测模型从所述目标区域内的用户中识别出所述指定业务的潜在用户。

根据本申请实施例的一个方面，提供了一种数据处理装置，包括：获取单元，用于获取目标区域内针对指定业务的用户样本数据；第一处理单元，用于基于所述用户样本数据确定与所述目标区域相关联的模型变量；第二处理单元，用于根据所述用户样本数据和与所述目标区域相关联的模型变量，构建与所述目标区域相对应的针对所述指定业务的预测模型；识别单元，用于通过所述预测模型从所述目标区域内的用户中识别出所述指定业务的潜在用户。

在本申请的一些实施例中，基于前述方案，所述获取单元配置为：从所述目标区域内的用户样本数据中选取在第一时间段内未开通所述指定业务，但在所述第一时间段之后的第二时间段内开通了所述指定业务的用户样本数据作为所述目标区域内针对所述指定业务的正样本数据；从所述目标区域内的用户样本数据中选取在所述第一时间段和所述第二时间段内均未开通所述指定业务的用户样本数据作为所述目标区域内针对所述指定业务的负样本数据。

在本申请的一些实施例中，基于前述方案，所述获取单元还用于：获取用户的交易数据；若根据所述交易数据确定所述用户在最近预定时长内交易次数最多的区域是所述目标区域，且最近预定时长内在所述目标区域内的交易次数达到设定次数，则将所述用户的关联数据作为所述目标区域内的用户样本数据。

在本申请的一些实施例中，基于前述方案，所述第一处理单元配置为：获取与所述用户样本数据相关联的变量；基于与所述用户样本数据相关联的各个变量的值，确定所述各个变量对所述用户样本数据中的正样本数据和负样本数据的区分能力；根据所述各个变量对所述正样本数据和所述负样本数据的区分能力，选择预定数量个变量作为与所述目标区域相关联的模型变量。

在本申请的一些实施例中，基于前述方案，所述第一处理单元配置为：获取所述用户样本数据中所包含的基础变量；根据所述用户样本数据中所包含的指定类型的基础变量，生成所述指定类型的基础变量对应的衍生变量；将所述衍生变量和所述用户样本数据中所包含的基础变量作为与所述用户样本数据相关联的变量，或将所述衍生变量作为与所述用户样本数据相关联的变量。

在本申请的一些实施例中，基于前述方案，所述第一处理单元配置为：针对与所述用户样本数据相关联的每个变量，根据所述用户样本数据中包含的所述每个变量的值将所述用户样本数据划分为多个第一样本集；根据各个所述第一样本集中的正样本数量与负样本数量，以及所述用户样本数据中的正样本数量与负样本数量，确定所述每个变量对所述正样本数据和所述负样本数据的区分能力。

在本申请的一些实施例中，基于前述方案，所述第一处理单元配置为：根据各个所述第一样本集中的正样本数量与负样本数量计算各个所述第一样本集中的正样本占比，根据所述用户样本数据中的正样本数量与负样本数量计算所述用户样本数据中的正样本占比；根据各个所述第一样本集中的正样本占比与所述用户样本数据中的正样本占比之间的对比关系，确定各个所述第一样本集对应的参考因子；根据各个所述第一样本集对应的参考因子，确定所述每个变量对所述正样本数据和所述负样本数据的区分能力。

在本申请的一些实施例中，基于前述方案，所述第二处理单元配置为：根据所述模型变量和从所述用户样本数据中选取出的第一数量的样本数据生成训练样本，并根据所述模型变量和从所述用户样本数据中选取出的第二数量的样本数据生成测试样本；通过所述训练样本对候选模型进行训练，得到训练后的候选模型；通过所述测试样本确定所述训练后的候选模型的预测效果；根据所述训练后的候选模型的预测效果，从所述候选模型中选择预测效果最优的模型作为所述预测模型。

在本申请的一些实施例中，基于前述方案，所述第二处理单元配置为：将所述测试样本输入至训练后的候选模型中，得到所述候选模型输出的各个所述测试样本是正样本的概率值；根据各个所述测试样本是正样本的概率值的大小，将所述测试样本划分为多个第二样本集；根据各个所述第二样本集中的正样本数量与负样本数量，以及所述测试样本中的正样本数量与负样本数量，确定所述训练后的候选模型的预测效果。

在本申请的一些实施例中，基于前述方案，所述第二处理单元配置为：根据各个所述第二样本集中的正样本数量与负样本数量计算各个所述第二样本集中的正样本占比，根据所述测试样本中的正样本数量与负样本数量计算所述测试样本中的正样本占比；根据各个所述第二样本集中的正样本占比与所述测试样本中的正样本占比之间的对比关系，确定各个所述第二样本集对应的参考因子；根据各个所述第二样本集对应的参考因子，确定所述训练后的候选模型的预测效果。

在本申请的一些实施例中，基于前述方案，在所述预测模型包括决策树模型的情况下，所述识别单元配置为：将测试样本输入至所述决策树模型中，以获取所述决策树模型的各个决策规则预测到的正样本占比；根据所述各个决策规则预测到的正样本占比，从所述决策树模型的决策规则中选择预定数量个决策规则；通过所述预定数量个决策规则从所述目标区域内的用户中过滤出符合所述预定数量个决策规则的用户作为所述指定业务的潜在用户。

在本申请的一些实施例中，基于前述方案，所述获取单元还用于：获取多个地区的属性信息，根据所述多个地区的属性信息将所述多个地区划分为至少一个群组，将每个所述群组作为一个所述目标区域；或将每个地区作为一个所述目标区域。

根据本申请实施例的一个方面，提供了一种计算机可读介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述实施例中所述的数据处理方法。

根据本申请实施例的一个方面，提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述实施例中所述的数据处理方法。

在本申请的一些实施例所提供的技术方案中，通过获取目标区域内针对指定业务的用户样本数据，基于该用户样本数据确定与该目标区域相关联的模型变量，并根据用户样本数据和与该目标区域相关联的模型变量，构建与该目标区域相对应的针对该指定业务的预测模型，以通过该预测模型从该目标区域内的用户中识别出该指定业务的潜在用户，使得能够针对不同区域选择相应的模型变量，并构建与不同区域相对应的针对指定业务的预测模型，进而可以通过与不同区域相对应的预测模型来识别不同区域内的指定业务的潜在用户，可见本申请实施例的技术方案能够针对不同的区域和业务来识别潜在用户，实现了精细化的识别过程，进而可以得到更准确、更科学及更合理的识别结果，以便于采取针对性的投放推送，有利于提高业务推广的转化效果，并且可以降低推广成本。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图；

图2示出了根据本申请的一个实施例的数据处理方法的流程图；

图3示出了根据本申请的一个实施例的基于用户样本数据确定与目标区域相关联的模型变量的流程图；

图4示出了根据本申请的一个实施例的获取与用户样本数据相关联的变量的流程图；

图5示出了根据本申请的一个实施例的确定各个变量对用户样本数据中的正样本数据和负样本数据的区分能力的流程图；

图6示出了根据本申请的一个实施例的确定每个变量对正样本数据和负样本数据的区分能力的流程图；

图7示出了根据本申请的一个实施例的各个第一样本集中的正样本占比与用户样本数据中的正样本占比之间的对比图；

图8示出了根据本申请的一个实施例的各个第一样本集中的正样本占比与用户样本数据中的正样本占比之间的对比图；

图9示出了根据本申请的一个实施例的构建与目标区域相对应的针对指定业务的预测模型的流程图；

图10示出了根据本申请的一个实施例的通过测试样本确定训练后的候选模型的预测效果的流程图；

图11示出了根据本申请的一个实施例的确定训练后的候选模型的预测效果的流程图；

图12示出了根据本申请的一个实施例的识别潜在用户的流程图；

图13示出了根据本申请的一个实施例的建模样本的选择时间点的示意图；

图14示出了根据本申请的一个实施例的建模样本的选取流程图；

图15示出了根据本申请的一个实施例的部分原始变量及衍生处理得到的变量的示意图；

图16示出了根据本申请的一个实施例的决策树模型的各个决策规则在随机抽样样本上的表现和在全量样本上的验证结果的对比效果图；

图17示出了根据本申请的一个实施例的决策树模型的各个决策规则在随机抽样样本上的提升度值和在全量样本上的提升度值的对比折线图；

图18示出了根据本申请的一个实施例的数据处理装置的框图；

图19示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本申请将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本申请的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本申请的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

图1示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图。

如图1所示，系统架构可以包括终端设备(如图1中所示智能手机101、平板电脑102和便携式计算机103中的一种或多种，当然也可以是台式计算机等等)、网络104和服务器105。网络104用以在终端设备和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线通信链路、无线通信链路等等。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

在本申请的一个实施例中，服务器105可以从终端设备中收集到用户样本数据，然后获取到目标区域内针对指定业务的用户样本数据。其中，目标区域可以是需要进行指定业务推广的地理位置区域，比如某个城市或者某些城市群等。指定业务可以是某个互联网业务，比如某个应用程序、应用程序中的某个功能等。

在本申请的一个实施例中，由于用户样本数据中包含有多种变量，但是这些变量对于不同的区域而言并非都是合适的变量，因此服务器105在获取到目标区域内针对指定业务的用户样本数据之后，可以基于这些用户样本数据确定与该目标区域相关联的变量作为模型变量，进而根据这些用户样本数据和确定出的与该目标区域相关联的模型变量来构建与该目标区域相对应的针对该指定业务的预测模型，该预测模型可以用来预测目标区域内的各个用户开通该指定业务的概率。

在本申请的一个实施例中，服务器105在构建出与目标区域相对应的针对该指定业务的预测模型之后，可以通过该预测模型从目标区域内的用户中识别出该指定业务的潜在用户，进而可以向这些潜在用户推送该指定业务。由于本申请实施例的技术方案能够针对不同的区域和业务来识别潜在用户，因此实现了精细化的识别过程，进而可以得到更准确、更科学及更合理的识别结果，以便于采取针对性的投放推送，有利于提高业务推广的转化效果，并且可以降低推广成本。

需要说明的是，本申请实施例所提供的数据处理方法一般由服务器105执行，相应地，数据处理装置一般设置于服务器105中。但是，在本申请的其它实施例中，终端设备也可以与服务器具有相似的功能，从而执行本申请实施例所提供的数据处理的方案。

以下对本申请实施例的技术方案的实现细节进行详细阐述：

图2示出了根据本申请的一个实施例的数据处理方法的流程图，该数据处理方法可以由具有数据处理功能的设备来执行，比如可以是图1中所示的服务器105。参照图2所示，该数据处理方法至少包括步骤S210至步骤S240，详细介绍如下：

在步骤S210中，获取目标区域内针对指定业务的用户样本数据。

在本申请的一个实施例中，目标区域可以是需要进行指定业务推广的地理位置区域，比如可以是某个地区(如一个城市、一个省份等)或者可以是多个地区形成的群组。

在本申请的一个实施例中，如果目标区域是多个地区形成的群组，那么可以根据地区的属性信息来对地区划分群组，比如可以根据地区消费水平、人口数量、地区面积等属性信息来将具有相同属性信息或类似属性信息的地区划分为同一个群组。

在本申请的一个实施例中，指定业务可以是某个互联网业务，比如某个应用程序、应用程序中的某个功能等。

在本申请的一个实施例中，用户样本数据是目标区域内与指定业务相关的一部分用户个体的数据，用户个体的数据比如可以包括是否开通指定业务、与指定业务相关联的用户特征数据等。

在本申请的一个实施例中，可以根据用户样本数据中包含的地理位置信息来确定处于目标区域内的用户样本数据，比如最近一段时间通过用户携带的设备(如智能手机、可穿戴设备等具有定位功能的设备)获取到的多次定位结果都是处于目标区域内，则可以确定该用户对应的用户样本数据是处于目标区域内的。

在本申请的一个实施例中，可以根据用户的交易数据(该交易数据可以包含在用户样本数据中)来确定处于目标区域内的用户样本数据，比如如果根据用户的交易数据确定用户在最近预定时长内交易次数最多的区域是目标区域，且最近预定时长内在该目标区域内的交易次数达到设定次数，则可以将该用户对应的用户样本数据作为目标区域内的用户样本数据。更具体地，比如用户在最近三个月内交易次数最多的区域是“上海”，并且最近三个月在“上海”的交易次数达到了10次，那么可以将该用户对应的用户样本数据作为“上海”这个区域内的用户样本数据。

在本申请的一个实施例中，获取目标区域内针对指定业务的用户样本数据的过程中，可以从该目标区域内的用户样本数据中选取在第一时间段内未开通指定业务，但在第一时间段之后的第二时间段内开通了该指定业务的用户样本数据作为该目标区域内针对该指定业务的正样本数据；并且可以从目标区域内的用户样本数据中选取在第一时间段和第二时间段内均未开通指定业务的用户样本数据作为目标区域内针对指定业务的负样本数据。其中，第一时间段和第二时间段可以是在时间轴上相邻的时间段，也可以是不相邻的时间段。

继续参照图2所示，在步骤S220中，基于所述用户样本数据确定与所述目标区域相关联的模型变量。

在本申请的一个实施例中，与目标区域相关联的模型变量是用于构建与目标区域相关联的预测模型的变量，这些变量可以用来表征用户样本数据的特征。

在本申请的一个实施例中，如图3所示，步骤S220中基于用户样本数据确定与目标区域相关联的模型变量的过程可以包括如下步骤S310至步骤S330，详细说明如下：

在步骤S310中，获取与用户样本数据相关联的变量。

在本申请的一个实施例中，如图4所示，步骤S310中获取与用户样本数据相关联的变量的过程可以包括如下步骤：

步骤S410，获取用户样本数据中所包含的基础变量。

在本申请的一个实施例中，基础变量可以是用户样本数据中所包含的原始变量。比如用户样本数据中所包含的支付类变量、出行类变量(如出租车、共享单车、公交车、地铁等)、基础信息变量(如年龄、性别等)、位置类变量等。

步骤S420，根据所述用户样本数据中所包含的指定类型的基础变量，生成所述指定类型的基础变量对应的衍生变量。

在本申请的一个实施例中，衍生变量通常不是用户样本数据中直接包含的，但是与用户样本数据中所包含的原始变量相关联。其中，指定类型的基础变量可以是能够进行统计分析以便于进行量化表征的变量。比如指定类型的基础变量可以是支付类变量，那么根据支付类变量生成的衍生变量可以是月均消费额度变量、月均消费次数变量等；若指定类型的基础变量为出行类变量，那么根据出行类变量生成的衍生变量可以是月均乘坐出租车的次数变量、月均使用共享单车的次数变量、月均乘坐公交车的次数变量、月均乘坐地铁的次数变量等。

步骤S430，将所述衍生变量和所述用户样本数据中所包含的基础变量作为与所述用户样本数据相关联的变量，或将所述衍生变量作为与所述用户样本数据相关联的变量。

在本申请的一个实施例中，既可以将衍生变量作为与用户样本数据相关联的变量，也可以将基础变量和衍生变量作为与用户样本数据相关联的变量。当然，在本申请的其它实施例中，也可以将基础变量作为与用户样本数据相关联的变量。

图4所示实施例的技术方案使得能够挖掘出与用户样本数据相关联的多种变量，进而可以通过对这些变量的分析来从中选择出与目标区域相关联的模型变量。

继续参照图3所示，在步骤S320中，基于与所述用户样本数据相关联的各个变量的值，确定所述各个变量对所述用户样本数据中的正样本数据和负样本数据的区分能力。

在本申请的一个实施例中，变量对正样本数据和负样本数据的区分能力影响了预测模型的预测效果，比如若一个变量对用户样本数据中的正样本数据和负样本数据的区分能力较大，那么通过该变量构建的预测模型对正样本数据和负样本数据的预测效果就越好。

在本申请的一个实施例中，如图5所示，步骤S320中基于与用户样本数据相关联的各个变量的值，确定各个变量对用户样本数据中的正样本数据和负样本数据的区分能力的过程，可以包括如下步骤S510和步骤S520，详细说明如下：

在步骤S510中，针对与用户样本数据相关联的每个变量，根据所述用户样本数据中包含的所述每个变量的值将所述用户样本数据划分为多个第一样本集。

在本申请的一个实施例中，可以按照用户样本数据所包含的变量值的大小，对用户样本数据进行排序，然后按照顺序将用户样本数据划分为多个第一样本集，比如平均划分为10个第一样本集。具体地，假设与用户样本数据相关联的一个变量为“月均乘坐出租车的次数”，那么可以按照各个用户样本数据中所包含的月均乘坐出租车的次数来对用户样本数据进行排序，在排序完成之后对用户样本数据进行划分得到多个第一样本集。

在本申请的一个实施例中，可以将每个变量的值域划分为多个区间，然后根据各个用户样本数据中所包含的变量值将各个用户样本数据划分到相应区间所对应的样本集中。具体地，假设与用户样本数据相关联的一个变量为“月均乘坐出租车的次数”，那么可以划分得到如下几个区间：大于等于0且小于3、大于等于3且小于7、大于等于7且小于10、大于等于10且小于15、大于等于15，进而按照各个用户样本数据中所包含的月均乘坐出租车的次数来将用户样本数据划分到相应区间所对应的样本集中，比如若某个用户样本数据中所包含的月均乘坐出租车的次数为5次，则将该用户样本数据划分到“大于等于3且小于7”对应的样本集中。

在步骤S520中，根据各个所述第一样本集中的正样本数量与负样本数量，以及所述用户样本数据中的正样本数量与负样本数量，确定所述每个变量对所述正样本数据和所述负样本数据的区分能力。

在本申请的一个实施例中，如图6所示，步骤S520中确定每个变量对正样本数据和负样本数据的区分能力的过程可以包括如下步骤：

步骤S610，根据各个第一样本集中的正样本数量与负样本数量计算各个所述第一样本集中的正样本占比，根据所述用户样本数据中的正样本数量与负样本数量计算所述用户样本数据中的正样本占比。

在本申请的一个实施例中，可以根据各个第一样本集中的正样本数量与负样本数量确定各个第一样本集中的总样本数量，然后将各个第一样本集中的正样本数量与总样本数量之间的比值作为各个第一样本集中的正样本占比。类似地，可以根据用户样本数据中的正样本数量与负样本数量确定用户样本数据的总样本数量，然后将用户样本数据中的正样本数量与用户样本数据的总样本数量之间的比值作为用户样本数据中的正样本占比。

步骤S620，根据各个所述第一样本集中的正样本占比与所述用户样本数据中的正样本占比之间的对比关系，确定各个所述第一样本集对应的参考因子。

在本申请的一个实施例中，各个第一样本集中的正样本占比与用户样本数据中的正样本占比之间的对比关系可以是各个第一样本集中的正样本占比与用户样本数据中的正样本占比之间的比值，这种方式得到的各个第一样本集对应的参考因子即为各个第一样本集的提升度。

在本申请的一个实施例中，各个第一样本集中的正样本占比与用户样本数据中的正样本占比之间的对比关系可以是各个第一样本集中的正样本占比与用户样本数据中的正样本占比之间的差值，这种方式得到的各个第一样本集对应的参考因子可以用于衡量各个第一样本集中的正样本占比与用户样本数据中的正样本占比之间的差距。

步骤S630，根据各个所述第一样本集对应的参考因子，确定所述每个变量对所述正样本数据和所述负样本数据的区分能力。

在本申请的一个实施例中，可以根据各个第一样本集对应的参考因子的大小来确定变量对正样本数据和负样本数据的区分能力。比如，若各个第一样本集对应的参考因子是各个第一样本集对应的提升度，那么在根据某个变量划分得到的多个第一样本集中有预定数量个(如一半以上)第一样本集的提升度大于或等于提升度阈值时，则说明该变量对正样本数据和负样本数据的区分能力较强。若各个第一样本集对应的参考因子是各个第一样本集中的正样本占比与用户样本数据中的正样本占比之间的差值，那么在根据某个变量划分得到的多个第一样本集中有预定数量个(如一半以上)第一样本集中的正样本占比与用户样本数据中的正样本占比之间的差值大于或等于设定阈值时，则说明该变量对正样本数据和负样本数据的区分能力较强。

更具体地，如图7所示，假设根据某个变量划分得到10个第一样本集，其中曲线701表示用户样本数据中的正样本占比，折线702上的各个点表示各个第一样本集中的正样本占比。从图7中可以看出，10个第一样本集中有9个第一样本集中的正样本占比要大于用户样本数据中的正样本占比，也即是说绝大多数第一样本集的提升度要大于或等于提升度阈值1(或者可以描述为绝大多数第一样本集中的正样本占比与用户样本数据中的正样本占比之间的差值要大于设定阈值0)，因此该变量对正样本数据和负样本数据的区分能力较强。

如图8所示，假设根据某个变量划分得到8个第一样本集，其中曲线801表示用户样本数据中的正样本占比，折线802上的各个点表示各个第一样本集中的正样本占比。从图8中可以看出，8个第一样本集中只有3个第一样本集中的正样本占比要大于用户样本数据中的正样本占比，也即是说绝大多数第一样本集的提升度要小于或等于提升度阈值1(或者可以描述为绝大多数第一样本集中的正样本占比与用户样本数据中的正样本占比之间的差值要小于设定阈值0)，因此该变量对正样本数据和负样本数据的区分能力较弱。

图6至图8所示实施例的技术方案是以正样本占比来衡量各个变量对正样本数据和负样本数据的区分能力。在本申请的其它实施例中，也可以通过负样本占比或者正负样本比例来衡量各个变量对正样本数据和负样本数据的区分能力，具体的处理过程与通过正样本占比衡量各个变量对正样本数据和负样本数据的区分能力的技术方案类似，只不过将计算正样本占比的过程替换为计算负样本占比(即计算各个第一样本集中的负样本占比和用户样本数据中的负样本占比)，或者将计算正样本占比的过程替换为计算正负样本比例(即计算各个第一样本集中的正负样本比例和用户样本数据中的正负样本比例)。

继续参照图3所示，在步骤S330中，根据所述各个变量对所述正样本数据和所述负样本数据的区分能力，选择预定数量个变量作为与目标区域相关联的模型变量。

在本申请的一个实施例中，可以按照各个变量对正样本数据和负样本数据的区分能力从大到小的顺序，选择预定数量个变量作为与目标区域相关联的模型变量。或者也可以将区分能力进行量化，然后选择区分能力大于区分能力阈值的变量作为与目标区域相关联的模型变量。

继续参照图2所示，在步骤S230中，根据所述用户样本数据和与所述目标区域相关联的模型变量，构建与所述目标区域相对应的针对所述指定业务的预测模型。

在本申请的一个实施例中，如图9所示，步骤S230中构建与目标区域相对应的针对指定业务的预测模型的过程，可以包括如下步骤S910至步骤S940，详细说明如下：

在步骤S910中，根据模型变量和从用户样本数据中选取出的第一数量的样本数据生成训练样本，并根据模型变量和从所述用户样本数据中选取出的第二数量的样本数据生成测试样本。

在本申请的一个实施例中，根据模型变量和选取出的第一数量的样本数据生成训练样本的过程可以是根据选取出的各个样本数据所包含的模型变量的值来生成各个样本数据对应的特征向量，然后根据各个样本数据是正样本数据还是负样本数据来生成结果标签，进而根据特征向量和标签来生成训练样本。其中，根据模型变量和选取出的第二数量的样本数据生成测试样本的过程与生成训练样本的过程类似。

在步骤S920中，通过所述训练样本对候选模型进行训练，得到训练后的候选模型。

在本申请的一个实施例中，通过训练样本对候选模型进行训练的过程即是将训练样本中包含的特征向量输入至候选模型中，然后根据候选模型的输出结果调整候选模型的参数，以使候选模型的输出与训练样本中包含的结果标签相匹配。

在本申请的一个实施例中，候选模型可以包括逻辑回归模型、决策树模型、XGBoost(eXtreme Gradient Boosting，极端梯度提升)模型等。

继续参照图9所示，在步骤S930中，通过所述测试样本确定所述训练后的候选模型的预测效果。

在本申请的一个实施例中，如图10所示，步骤S930中通过测试样本确定训练后的候选模型的预测效果的过程可以包括如下步骤S1010至步骤S1030，详细说明如下：

在步骤S1010中，将测试样本输入至训练后的候选模型中，得到所述候选模型输出的各个所述测试样本是正样本的概率值。

在本申请的一个实施例中，将测试样本输入至训练后的候选模型中即是将测试样本中包含的特征向量输入至候选模型中，以使候选模型输出各个测试样本是正样本的概率值。

在步骤S1020中，根据各个所述测试样本是正样本的概率值的大小，将所述测试样本划分为多个第二样本集。

在本申请的一个实施例中，可以按照候选模型输出的各个测试样本是正样本的概率值大小，对测试样本进行排序，然后按照顺序将测试样本划分为多个第二样本集，比如平均划分为10个第二样本集。需要说明的是，如果后续分析候选模型的预测效果时仅需要通过概率值较大的测试样本(概率值较大的测试样本即是预测为正样本的概率值较大的测试样本)来处理，那么在按照顺序将测试样本划分为多个第二样本集时，可以仅对概率值较大的测试样本进行划分。

在本申请的一个实施例中，可以将概率值范围(即0-1)划分为多个区间，然后根据各个测试样本是正样本的概率值将各个测试样本划分到相应区间所对应的样本集中，以得到多个第二样本集。需要说明的是，如果后续分析候选模型的预测效果时仅需要通过概率值较大的测试样本(概率值较大的测试样本即是预测为正样本的概率值较大的测试样本)来处理，那么在将概率值范围划分为多个区间时，可以仅划分得到较大概率值的区间(比如仅对0.5-1的范围进行划分)，进而在将各个测试样本划分到相应区间所对应的样本集中时，可以仅将概率值较大的测试样本划分到相应区间所对应的样本集中。

在步骤S1030中，根据各个所述第二样本集中的正样本数量与负样本数量，以及所述测试样本中的正样本数量与负样本数量，确定所述训练后的候选模型的预测效果。

在本申请的一个实施例中，如图11所示，步骤S1030中确定训练后的候选模型的预测效果的过程可以包括如下步骤：

步骤S1110，根据各个第二样本集中的正样本数量与负样本数量计算各个所述第二样本集中的正样本占比，根据所述测试样本中的正样本数量与负样本数量计算所述测试样本中的正样本占比。

在本申请的一个实施例中，可以根据各个第二样本集中的正样本数量与负样本数量确定各个第二样本集中的总样本数量，然后将各个第二样本集中的正样本数量与总样本数量之间的比值作为各个第二样本集中的正样本占比。类似地，可以根据测试样本中的正样本数量与负样本数量确定测试样本的总样本数量，然后将测试样本中的正样本数量与测试样本的总样本数量之间的比值作为测试样本中的正样本占比。

步骤S1120，根据各个第二样本集中的正样本占比与测试样本中的正样本占比之间的对比关系，确定各个所述第二样本集对应的参考因子。

在本申请的一个实施例中，各个第二样本集中的正样本占比与测试样本中的正样本占比之间的对比关系可以是各个第二样本集中的正样本占比与测试样本中的正样本占比之间的比值，这种方式得到的各个第二样本集对应的参考因子即为各个第二样本集的提升度。

在本申请的一个实施例中，各个第二样本集中的正样本占比与测试样本中的正样本占比之间的对比关系可以是各个第二样本集中的正样本占比与测试样本中的正样本占比之间的差值，这种方式得到的各个第二样本集对应的参考因子可以用于衡量各个第二样本集中的正样本占比与测试样本中的正样本占比之间的差距。

步骤S1130，根据各个所述第二样本集对应的参考因子，确定所述训练后的候选模型的预测效果。

在本申请的一个实施例中，在确定候选模型的预测效果时，可以仅选择一部分第二样本集对应的参考因子来确定，比如选择对应的概率值较大的几个(如3个)第二样本集对应的参考因子，在这种情况下，可以仅计算这几个第二样本集对应的参考因子。

在本申请的一个实施例中，若各个第二样本集对应的参考因子是各个第二样本集对应的提升度，那么可以根据该提升度的值来确定候选模型的预测效果。具体地，提升度越大，候选模型的预测效果越好。

在本申请的一个实施例中，若各个第二样本集对应的参考因子是各个第二样本集中的正样本占比与测试样本中的正样本占比之间的差值，那么可以根据该差值的大小来确定候选模型的预测效果。具体地，该差值越大，候选模型的预测效果越好。

图11所示实施例的技术方案是以正样本占比来衡量候选模型的预测效果。在本申请的其它实施例中，也可以通过负样本占比或者正负样本比例来衡量候选模型的预测效果，具体的处理过程与通过正样本占比衡量候选模型的预测效果的技术方案类似，只不过将计算正样本占比的过程替换为计算负样本占比(即计算各个第二样本集中的负样本占比和测试样本中的负样本占比)，或者将计算正样本占比的过程替换为计算正负样本比例(即计算各个第二样本集中的正负样本比例和测试样本中的正负样本比例)。

继续参照图9所示，在步骤S940中，根据所述训练后的候选模型的预测效果，从所述候选模型中选择预测效果最优的模型作为所述预测模型。

图9所示实施例的技术方案使得在有多个待选的候选模型时，可以选择出最适合目标区域的候选模型作为预测模型，进而可以更准确、更科学及更合理地识别出目标区域内针对指定业务的潜在用户。

在本申请的一个实施例中，步骤S230中构建与目标区域相对应的针对指定业务的预测模型也可以是根据用户样本数据和与目标区域相关联的模型变量生成训练样本，然后通过该训练样本直接训练一个预定的模型来得到与目标区域相对应的针对指定业务的预测模型。

继续参照图2所示，在步骤S240中，通过所述预测模型从所述目标区域内的用户中识别出所述指定业务的潜在用户。

在本申请的一个实施例中，通过预测模型从目标区域内的用户中识别出指定业务的潜在用户可以是：通过预测模型预测目标区域内的各个用户是指定业务的潜在用户的概率，然后按照概率的大小顺序，选择一定数量的用户作为识别出的潜在用户。

在本申请的一个实施例中，如果预测模型是决策树模型，那么也可以通过如图12所示的方式来识别潜在用户，即包括如下步骤：

步骤S1210，将测试样本输入至决策树模型中，以获取所述决策树模型的各个决策规则预测到的正样本占比。

在本申请的一个实施例中，决策树模型是由决策点、策略点及结果构成的树形模型，采用决策树模型通常需要进行多层级或多阶段的决策，当一个阶段决策完成后，可能有m种新的不同自然状态(自然状态可以是新的条件或规则等)发生，每种自然状态下都有n个新的策略可选择，选择后产生不同的结果并再次面临新的自然状态，继续产生一系列的决策过程，如果没有新的自然状态发生，则得到了决策树模型的结果。其中，决策树模型的各个决策规则即为得到各个结果的一系列条件或规则的集合。

步骤S1220，根据所述各个决策规则预测到的正样本占比，从所述决策树模型的决策规则中选择预定数量个决策规则。

在本申请的一个实施例中，可以根据各个决策规则预测到的正样本占比来计算各个决策规则的提升度(比如计算各个决策规则预测到的正样本占比与测试样本中的正样本占比之间的比值，将该比值作为各个决策规则的提升度)，然后根据提升度的大小顺序，选择预定数量个决策规则。

在本申请的一个实施例中，可以按照各个决策规则预测到的正样本占比的大小顺序，选择预定数量个决策规则。

步骤S1230，通过所述预定数量个决策规则从目标区域内的用户中过滤出符合所述预定数量个决策规则的用户作为所述指定业务的潜在用户。

图12所示实施例的技术方案能够通过对决策树模型的各个决策规则进行分析来找到预定数量个决策规则，进而可以方便地通过该决策规则来过滤出指定业务的潜在用户，相比于通过预测模型来预测各个用户是潜在用户的概率的技术方案，图12所示实施例的技术方案可以有效减少计算量。

以下以指定业务是乘车码业务为例，对本申请实施例的技术方案进行详细阐述。

需要说明的是：乘车码业务是在乘坐公交车、地铁等交通工具时通过出示二维码来进行扣费的业务。其中，乘车码业务可以通过独立的应用程序来实现，也可以是集成在其它应用程序中的一个程序功能。比如，乘车码业务可以通过微信小程序(微信小程序是一种不需要下载安装即可直接在微信中使用的应用)来实现，其通过微信支付签约授权来开通，进而在乘车时出示乘车码即可通过微信支付来抵扣乘车费用。

在本申请的一个实施例中，乘车码场景下的技术方案主要包括：样本选取、变量探索、模型建立及效果评估、模型验证、模型应用及优化等环节。以下以目标区域是上海为例逐一阐述各个环节的具体处理过程：

1、样本选取

在本申请的一个实施例中，选择建模样本时需要结合实际业务，并且需要考虑到观测时间点，其中观测时间点是划分观测期和表现期的临界点，观测时间点之前称为观测期，观测时间点之后称为表现期。假设上海地区的乘车码业务的上线时间是2018年6月份，由于乘车码业务在刚刚上线后用户增长比较迅速，因此为了保证选择到的样本更加客观，可以在选取样本时避开这段时间段内的样本。如图13所示，观测期可以选择为2018/07/01—2018/08/31；表现期可以选择为2018/09/01—2018/09/30。

在申请的一个实施例中，如果在观测期内，某个上海用户的上海乘车码账户状态为“未开通”，但在表现期内该用户的上海乘车码账户状态为“已开通”，则记为正样本；如果在观测期内，某个上海用户的上海乘车码账户状态为“未开通”，且表现期内该用户的上海乘车码账户状态也为“未开通”，则记为负样本。

在本申请的一个实施例中，建模样本的选取流程如图14所示，主要包括如下几个步骤：

Step0，筛选得到上海常驻人口，比如大约为2420万个样本。

Step1，根据微信支付相关条件筛选出满足以下条件的样本：1、微信支付用户；2、IP地址可以识别到；3、最近三个月内交易最频繁的城市是上海；4、最近三个月内交易最频繁城市的交易次数大于等于3次。通过Step1的筛选可以得到14355131个样本。

Step2，进一步筛选出观测期内乘车码账户状态为“未开通”的用户群，即剔除掉已经开通上海乘车码的样本。通过Step2的进一步筛选可以得到13884386个样本。

Step3，筛选出观测期内乘车码账户状态为“未开通”，但在表现期内乘车码账户状态为“已开通”的样本作为正样本；并筛选出观测期内乘车码账户状态为“未开通”，且表现期内乘车码账户状态也为“未开通”的样本作为负样本。通过Step3的进一步筛选可以得到103546个正样本和13780840个负样本，其中正样本占比为2.38％，负样本占比为97.62％。

2、变量探索

在本申请的一个实施例中，建模样本选择完毕之后，最重要的工作就是寻找合适的变量来建模，本申请实施例的技术方案不仅使用了常用的变量(比如年龄、性别等)，而且还探索分析了和乘车码业务场景相关的其它变量，以尽可能的提升构建的预测模型的效果。

在本申请的一个实施例中，构建预测模型使用的变量主要可以包括如下几类：

1)支付类变量：比如与微信支付相关的变量(可以包括支付次数、支付额度等)；

2)出行类变量：比如共享单车类变量(可以包括是否使用过共享单车、每个月使用的次数、每个月使用共享单车所花费的金额等)、出租车类变量(可以包括是否乘坐过出租车、每个月乘坐次数、每个月乘坐出租车所花费的金额等)、公交车类变量(可以包括是否乘坐过公交车、每个月乘坐次数、每个月乘坐公交车所花费的金额等)、地铁类变量(可以包括是否乘坐过地铁、每个月乘坐次数、每个月乘坐地铁所花费的金额等)、火车票类变量(可以包括是否购买过火车票、每个月购买火车票的次数、每个月购买火车票所花费的金额等)等；

3)位置类变量：比如LBS(Location Based Service，基于位置的服务)变量，可以包括用户最近N个月(N＝1、2、3、……)最频繁交易城市，最频繁交易城市的交易次数/交易金额等；

4)基础信息：比如年龄、性别等。

在本申请的一个实施例中，可以对上述的变量(可以称为原始变量)进行变量衍生处理，比如对于支付类变量，进行变量衍生处理之后可以得到月均消费额度变量、月均消费次数变量等；对于出行类变量，进行变量衍生处理之后可以得到月均乘坐出租车的次数变量、月均使用共享单车的次数变量、月均乘坐公交车的次数变量、月均乘坐地铁的次数变量等。

在本申请的一个实施例中，通过对原始变量和衍生处理得到的变量进行统一汇总可以得到构建预测模型使用的变量，其中图15中列出了部分原始变量及衍生处理得到的变量。

在本申请的一个实施例中，在进行变量衍生处理之后可以得到更多数量的变量，然后可以分析每一个变量在建模样本上的表现，也就是该变量对建模样本中正、负样本的区分能力，如果一个变量对建模样本中正、负样本区分的越开，则说明该变量对预测模型的效果提升越明显。

在本申请的一个实施例中，在分析每个变量对建模样本中正、负样本的区分能力时，可以根据建模样本中包含的该变量的值将建模样本划分为多个样本集，然后计算每个样本集的提升度，即每个样本集中正样本的占比与所有建模样本中正样本占比之间的比值，进而根据每个样本集的提升度确定每个变量对建模样本中正、负样本的区分能力，比如若根据某个变量划分得到的多个样本集中有预定数量个(如一半以上)样本集的提升度大于或等于提升度阈值时，则说明该变量对正、负样本的区分能力较强。

在本申请的一个实施例中，通过上述的变量分析过程，得到的对上海地区的预测模型比较重要的变量可以包括：公交车类变量、共享单车类变量、支付金额类变量、支付次数类变量等。

3、模型建立及效果评估

在本申请的一个实施例中，针对上海乘车码业务的推广活动，可以尝试采用分类预测模型，比如逻辑回归模型、决策树模型和XGBoost模型等。由于原始样本量级较大，超过了1388万个样本，因此为了缩小计算量可以采用随机抽样的方式抽取建模样本。本申请实施例中的一种示例性的抽样量级如表1所示：

	原始样本	随机抽样建模样本
			总样本量	13884386	555130
正样本量	330630	13157
			负样本量	13553756	541973
正样本占比	2.38％	2.37％

表1

参照表1所示，原始样本的总样本量13884386个，正样本量是330630个，负样本量是13553756个，正样本占比为2.38％；随机抽样得到的建模样本的总样本量555130个，正样本量是13157个，负样本量是541973个，正样本占比为2.37％。

在本申请的一个实施例中，还可以从原始样本中抽样得到训练样本，并通过抽样得到的训练样本对前述的分类预测模型进行训练，然后通过建模样本来衡量各个分类预测模型的预测效果。

在本申请的一个实施例中，可以采用lift提升度来衡量预测模型的预测效果，具体评估方式可以为：将预测模型输出的各个建模样本是正样本的概率值进行降序排序，然后将建模样本10等份(数值在此仅为示例)，分别计算每一等份样本中的正样本占比与所有建模样本中的正样本占比之间的比值，该比值即为lift提升度。在本申请的实施例中，可以以1为界线，大于1的lift提升度表示该预测模型比随机选择捕捉到了更多的“响应”；等于1的lift提升度表示该预测模型的表现独立于随机选择；小于1的lift提升度则表示该预测模型比随机选择捕捉到了更少的“响应”。

基于上述的评估方式，通过逻辑回归模型得到的各等份的lift提升度如下表2所示、通过决策树模型得到的各等份的lift提升度如下表3所示、通过XGBoost模型得到的各等份的lift提升度如下表4所示：

表2

表3

表4

在本申请的一个实施例中，由于在将建模样本10等份时是将预测模型输出的各个建模样本是正样本的概率值进行降序排序，因此前几个等份的lift提升度往往较大，通常可以分析前3个等份的提升度。从表2、表3和表4可以看出，在前3个等份的样本上，XGBoost模型的lift提升度值表现最优，决策树模型的lift提升度值也很乐观，而逻辑回归模型的lift提升度值相对最低。因此，针对上海地区而言，可以选择决策树模型或者XGBoost模型来识别乘车码业务的潜在用户。

在本申请的一个实施例中，以选择决策树模型为例，对预测模型的验证和部署应用进行说明。

4、模型验证

在本申请的一个实施例中，虽然决策树模型在随机抽样的建模样本上表现很不错，但是还需要进一步证明其在所有样本上的表现同样很优异，这样决策树模型的结果才有可能在实际投放运营应用中实现较优的效果。图16示出了在决策树模型的深度为4(假设有16个决策规则R1-R16)时，决策树模型的各个决策规则在随机抽样样本上的表现和在全量样本上的验证结果的对比效果。

从图16可以看出，决策树模型的各个决策规则在随机抽样样本上的lift提升度值和在全量样本上的lift提升度值几乎一致。比如，决策规则R1在随机抽样样本上的lift提升度值为3.00，在全量样本上的lift提升度值为2.94；决策规则R5在随机抽样样本上的lift提升度值为3.38，在全量样本上的lift提升度值为3.61；决策规则R6在随机抽样样本上的lift提升度值为5.71，在全量样本上的lift提升度值为5.91；决策规则R7在随机抽样样本上的lift提升度值为4.34，在全量样本上的lift提升度值为4.35。

同时，图17示出了决策树模型的各个决策规则在随机抽样样本上的lift提升度值和在全量样本上的lift提升度值的对比折线图，如图17所示，曲线1701表示lift提升度的参考值曲线；折线1702表示决策树模型的各个决策规则在随机抽样样本上的lift提升度值形成的折线；折线1703表示决策树模型的各个决策规则在全量样本上的lift提升度值形成的折线。

从图16和图17可以看出，决策树模型的各个决策规则在随机抽样样本上的预测效果和在全量样本上的预测效果都比较优异。

5、模型应用及优化

通过上述的模型验证过程可知根据本申请实施例的技术方案构建的决策树模型不仅在随机抽样样本上表现很好，而且在全量样本上表现同样很好，因此可以根据决策树模型的各个决策规则来识别上海乘车码业务的潜在用户。比如：可以取lift提升度值≥5的决策规则，即决策规则R6，作为高频潜在用户的过滤规则，以过滤得到高频潜在用户包；取3≤lift提升度值＜5的决策规则，即R5和R7，作为中频潜在用户的过滤规则，以过滤得到中频潜在用户包；取2≤lift提升度值＜3的决策规则，即R1、R8和R11，作为低频潜在用户的过滤规则，以过滤得到低频潜在用户包；取lift提升度值在1附近的决策规则，即R12和R13，作为随机对比测试的过滤规则，以过滤得到随机对比测试用户包。然后可以根据业务推广的实际需求和推广成本等多个因素，决定向多少量级的用户推送乘车码业务。

在本申请的一个实施例中，在向用户推送乘车码业务之后，可以借助于实际的转化效果不断迭代优化预测模型，以期进一步提高预测模型的预测效果。

在本申请的一个实施例中，可以针对上海地区的乘车码业务的4个用户包，在同一时间采用相同的文案通过短信渠道进行推送，那么在72小时内的转化效果如表5所示：

表5

从表5可以看出，高频潜在用户包、中频潜在用户包、低频潜在用户包和随机对比测试用户包的72小时开通率依次递减，这也说明了本申请实施例构建的决策树模型能够很好地区分不同类型的潜在用户。

以表5所示的数据为例，假设短信渠道的成本是每触达一个用户花费0.035元，采用粗犷式的短信推送方式推送乘车码业务在72小时的开通率约为1％，那么粗略计算得到的基于本申请实施例的技术方案来进行推送的成本消耗与粗狂式推送方式的成本消耗如表6所示：

表6

从表6所示，相比于粗犷式推送的方案，根据本申请实施例中的预测模型的结果进行推送的方案每转化一个用户的成本降低了约0.9元，进而在需要转化相同数量的用户时，可以有效降低推广成本。

图13至图17以针对上海地区进行乘车码业务的推广为例对本申请实施例的技术方案进行了详细阐述。需要说明的是，对于其它城市而言，也可以采用类似的技术方案来构建预测模型，并通过预测模型识别出潜在用户来进行乘车码业务的推广；同时，也可以进行城市分群，即将属性相似的城市作为一个城市群体，然后针对该城市群体构建预测模型，这种方式既保证了推广效果，节省了推广成本，而且也能够极大减少数据运营人员的工作量，即无需针对每个城市(尤其是规模较小的城市)进行处理。当然，本申请实施例的技术方案也不限于对乘车码业务的处理，其可以适用于所有需要识别潜在用户并进行推广的业务。

以下介绍本申请的装置实施例，可以用于执行本申请上述实施例中的数据处理方法。对于本申请装置实施例中未披露的细节，请参照本申请上述的数据处理方法的实施例。

图18示出了根据本申请的一个实施例的数据处理装置的框图。

参照图18所示，根据本申请的一个实施例的数据处理装置1800，包括：获取单元1802、第一处理单元1804、第二处理单元1806和识别单元1808。

其中，获取单元1802用于获取目标区域内针对指定业务的用户样本数据；第一处理单元1804用于基于所述用户样本数据确定与所述目标区域相关联的模型变量；第二处理单元1806用于根据所述用户样本数据和与所述目标区域相关联的模型变量，构建与所述目标区域相对应的针对所述指定业务的预测模型；识别单元1808用于通过所述预测模型从所述目标区域内的用户中识别出所述指定业务的潜在用户。

在本申请的一些实施例中，基于前述方案，获取单元1802配置为：从所述目标区域内的用户样本数据中选取在第一时间段内未开通所述指定业务，但在所述第一时间段之后的第二时间段内开通了所述指定业务的用户样本数据作为所述目标区域内针对所述指定业务的正样本数据；从所述目标区域内的用户样本数据中选取在所述第一时间段和所述第二时间段内均未开通所述指定业务的用户样本数据作为所述目标区域内针对所述指定业务的负样本数据。

在本申请的一些实施例中，基于前述方案，获取单元1802还用于：获取用户的交易数据；若根据所述交易数据确定所述用户在最近预定时长内交易次数最多的区域是所述目标区域，且最近预定时长内在所述目标区域内的交易次数达到设定次数，则将所述用户的关联数据作为所述目标区域内的用户样本数据。

在本申请的一些实施例中，基于前述方案，第一处理单元1804配置为：获取与所述用户样本数据相关联的变量；基于与所述用户样本数据相关联的各个变量的值，确定所述各个变量对所述用户样本数据中的正样本数据和负样本数据的区分能力；根据所述各个变量对所述正样本数据和所述负样本数据的区分能力，选择预定数量个变量作为与所述目标区域相关联的模型变量。

在本申请的一些实施例中，基于前述方案，第一处理单元1804配置为：获取所述用户样本数据中所包含的基础变量；根据所述用户样本数据中所包含的指定类型的基础变量，生成所述指定类型的基础变量对应的衍生变量；将所述衍生变量和所述用户样本数据中所包含的基础变量作为与所述用户样本数据相关联的变量，或将所述衍生变量作为与所述用户样本数据相关联的变量。

在本申请的一些实施例中，基于前述方案，第一处理单元1804配置为：针对与所述用户样本数据相关联的每个变量，根据所述用户样本数据中包含的所述每个变量的值将所述用户样本数据划分为多个第一样本集；根据各个所述第一样本集中的正样本数量与负样本数量，以及所述用户样本数据中的正样本数量与负样本数量，确定所述每个变量对所述正样本数据和所述负样本数据的区分能力。

在本申请的一些实施例中，基于前述方案，第一处理单元1804配置为：根据各个所述第一样本集中的正样本数量与负样本数量计算各个所述第一样本集中的正样本占比，根据所述用户样本数据中的正样本数量与负样本数量计算所述用户样本数据中的正样本占比；根据各个所述第一样本集中的正样本占比与所述用户样本数据中的正样本占比之间的对比关系，确定各个所述第一样本集对应的参考因子；根据各个所述第一样本集对应的参考因子，确定所述每个变量对所述正样本数据和所述负样本数据的区分能力。

在本申请的一些实施例中，基于前述方案，第二处理单元1806配置为：根据所述模型变量和从所述用户样本数据中选取出的第一数量的样本数据生成训练样本，并根据所述模型变量和从所述用户样本数据中选取出的第二数量的样本数据生成测试样本；通过所述训练样本对候选模型进行训练，得到训练后的候选模型；通过所述测试样本确定所述训练后的候选模型的预测效果；根据所述训练后的候选模型的预测效果，从所述候选模型中选择预测效果最优的模型作为所述预测模型。

在本申请的一些实施例中，基于前述方案，第二处理单元1806配置为：将所述测试样本输入至训练后的候选模型中，得到所述候选模型输出的各个所述测试样本是正样本的概率值；根据各个所述测试样本是正样本的概率值的大小，将所述测试样本划分为多个第二样本集；根据各个所述第二样本集中的正样本数量与负样本数量，以及所述测试样本中的正样本数量与负样本数量，确定所述训练后的候选模型的预测效果。

在本申请的一些实施例中，基于前述方案，第二处理单元1806配置为：根据各个所述第二样本集中的正样本数量与负样本数量计算各个所述第二样本集中的正样本占比，根据所述测试样本中的正样本数量与负样本数量计算所述测试样本中的正样本占比；根据各个所述第二样本集中的正样本占比与所述测试样本中的正样本占比之间的对比关系，确定各个所述第二样本集对应的参考因子；根据各个所述第二样本集对应的参考因子，确定所述训练后的候选模型的预测效果。

在本申请的一些实施例中，基于前述方案，在所述预测模型包括决策树模型的情况下，识别单元1808配置为：将测试样本输入至所述决策树模型中，以获取所述决策树模型的各个决策规则预测到的正样本占比；根据所述各个决策规则预测到的正样本占比，从所述决策树模型的决策规则中选择预定数量个决策规则；通过所述预定数量个决策规则从所述目标区域内的用户中过滤出符合所述预定数量个决策规则的用户作为所述指定业务的潜在用户。

在本申请的一些实施例中，基于前述方案，获取单元1802还用于：获取多个地区的属性信息，根据所述多个地区的属性信息将所述多个地区划分为至少一个群组，将每个所述群组作为一个所述目标区域；或将每个地区作为一个所述目标区域。

需要说明的是，图19示出的电子设备的计算机系统1900仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图19所示，计算机系统1900包括中央处理单元(Central Processing Unit，CPU)1901，其可以根据存储在只读存储器(Read-Only Memory，ROM)1902中的程序或者从存储部分1908加载到随机访问存储器(Random Access Memory，RAM)1903中的程序而执行各种适当的动作和处理，例如执行上述实施例中所述的方法。在RAM 1903中，还存储有系统操作所需的各种程序和数据。CPU 1901、ROM 1902以及RAM 1903通过总线1904彼此相连。输入/输出(Input/Output，I/O)接口1905也连接至总线1904。

以下部件连接至I/O接口1905：包括键盘、鼠标等的输入部分1906；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分1907；包括硬盘等的存储部分1908；以及包括诸如LAN(Local AreaNetwork，局域网)卡、调制解调器等的网络接口卡的通信部分1909。通信部分1909经由诸如因特网的网络执行通信处理。驱动器1910也根据需要连接至I/O接口1905。可拆卸介质1911，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1910上，以便于从其上读出的计算机程序根据需要被安装入存储部分1908。

特别地，根据本申请的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1909从网络上被下载和安装，和/或从可拆卸介质1911被安装。在该计算机程序被中央处理单元(CPU)1901执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现上述实施例中所述的方法。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的实施方式后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种数据处理方法，其特征在于，包括：

获取目标区域内针对指定业务的用户样本数据；

基于所述用户样本数据确定与所述目标区域相关联的模型变量；

根据所述用户样本数据和与所述目标区域相关联的模型变量，构建与所述目标区域相对应的针对所述指定业务的预测模型；

通过所述预测模型从所述目标区域内的用户中识别出所述指定业务的潜在用户。

2.根据权利要求1所述的数据处理方法，其特征在于，获取目标区域内针对指定业务的用户样本数据，包括：

从所述目标区域内的用户样本数据中选取在第一时间段内未开通所述指定业务，但在所述第一时间段之后的第二时间段内开通了所述指定业务的用户样本数据作为所述目标区域内针对所述指定业务的正样本数据；

从所述目标区域内的用户样本数据中选取在所述第一时间段和所述第二时间段内均未开通所述指定业务的用户样本数据作为所述目标区域内针对所述指定业务的负样本数据。

3.根据权利要求1所述的数据处理方法，其特征在于，还包括：

获取用户的交易数据；

若根据所述交易数据确定所述用户在最近预定时长内交易次数最多的区域是所述目标区域，且最近预定时长内在所述目标区域内的交易次数达到设定次数，则将所述用户的关联数据作为所述目标区域内的用户样本数据。

4.根据权利要求1所述的数据处理方法，其特征在于，基于所述用户样本数据确定与所述目标区域相关联的模型变量，包括：

获取与所述用户样本数据相关联的变量；

基于与所述用户样本数据相关联的各个变量的值，确定所述各个变量对所述用户样本数据中的正样本数据和负样本数据的区分能力；

根据所述各个变量对所述正样本数据和所述负样本数据的区分能力，选择预定数量个变量作为与所述目标区域相关联的模型变量。

5.根据权利要求4所述的数据处理方法，其特征在于，获取与所述用户样本数据相关联的变量，包括：

获取所述用户样本数据中所包含的基础变量；

根据所述用户样本数据中所包含的指定类型的基础变量，生成所述指定类型的基础变量对应的衍生变量；

将所述衍生变量和所述用户样本数据中所包含的基础变量作为与所述用户样本数据相关联的变量，或将所述衍生变量作为与所述用户样本数据相关联的变量。

6.根据权利要求4所述的数据处理方法，其特征在于，基于与所述用户样本数据相关联的各个变量的值，确定所述各个变量对所述用户样本数据中的正样本数据和负样本数据的区分能力，包括：

针对与所述用户样本数据相关联的每个变量，根据所述用户样本数据中包含的所述每个变量的值将所述用户样本数据划分为多个第一样本集；

根据各个所述第一样本集中的正样本数量与负样本数量，以及所述用户样本数据中的正样本数量与负样本数量，确定所述每个变量对所述正样本数据和所述负样本数据的区分能力。

7.根据权利要求6所述的数据处理方法，其特征在于，根据各个所述第一样本集中的正样本数量与负样本数量，以及所述用户样本数据中的正样本数量与负样本数量，确定所述每个变量对所述正样本数据和所述负样本数据的区分能力，包括：

根据各个所述第一样本集中的正样本数量与负样本数量计算各个所述第一样本集中的正样本占比，根据所述用户样本数据中的正样本数量与负样本数量计算所述用户样本数据中的正样本占比；

根据各个所述第一样本集中的正样本占比与所述用户样本数据中的正样本占比之间的对比关系，确定各个所述第一样本集对应的参考因子；

根据各个所述第一样本集对应的参考因子，确定所述每个变量对所述正样本数据和所述负样本数据的区分能力。

8.根据权利要求1所述的数据处理方法，其特征在于，根据所述用户样本数据和与所述目标区域相关联的模型变量，构建与所述目标区域相对应的针对所述指定业务的预测模型，包括：

根据所述模型变量和从所述用户样本数据中选取出的第一数量的样本数据生成训练样本，并根据所述模型变量和从所述用户样本数据中选取出的第二数量的样本数据生成测试样本；

通过所述训练样本对候选模型进行训练，得到训练后的候选模型；

通过所述测试样本确定所述训练后的候选模型的预测效果；

根据所述训练后的候选模型的预测效果，从所述候选模型中选择预测效果最优的模型作为所述预测模型。

9.根据权利要求8所述的数据处理方法，其特征在于，通过所述测试样本确定所述训练后的候选模型的预测效果，包括：

将所述测试样本输入至训练后的候选模型中，得到所述候选模型输出的各个所述测试样本是正样本的概率值；

根据各个所述测试样本是正样本的概率值的大小，将所述测试样本划分为多个第二样本集；

根据各个所述第二样本集中的正样本数量与负样本数量，以及所述测试样本中的正样本数量与负样本数量，确定所述训练后的候选模型的预测效果。

10.根据权利要求9所述的数据处理方法，其特征在于，根据各个所述第二样本集中的正样本数量与负样本数量，以及所述测试样本中的正样本数量与负样本数量，确定所述训练后的候选模型的预测效果，包括：

根据各个所述第二样本集中的正样本数量与负样本数量计算各个所述第二样本集中的正样本占比，根据所述测试样本中的正样本数量与负样本数量计算所述测试样本中的正样本占比；

根据各个所述第二样本集中的正样本占比与所述测试样本中的正样本占比之间的对比关系，确定各个所述第二样本集对应的参考因子；

根据各个所述第二样本集对应的参考因子，确定所述训练后的候选模型的预测效果。

11.根据权利要求1所述的数据处理方法，其特征在于，在所述预测模型包括决策树模型的情况下，通过所述预测模型从所述目标区域内的用户中识别出所述指定业务的潜在用户，包括：

将测试样本输入至所述决策树模型中，以获取所述决策树模型的各个决策规则预测到的正样本占比；

根据所述各个决策规则预测到的正样本占比，从所述决策树模型的决策规则中选择预定数量个决策规则；

通过所述预定数量个决策规则从所述目标区域内的用户中过滤出符合所述预定数量个决策规则的用户作为所述指定业务的潜在用户。

12.根据权利要求1至11中任一项所述的数据处理方法，其特征在于，还包括：

获取多个地区的属性信息，根据所述多个地区的属性信息将所述多个地区划分为至少一个群组，将每个所述群组作为一个所述目标区域；或

将每个地区作为一个所述目标区域。

13.一种数据处理装置，其特征在于，包括：

获取单元，用于获取目标区域内针对指定业务的用户样本数据；

第一处理单元，用于基于所述用户样本数据确定与所述目标区域相关联的模型变量；

第二处理单元，用于根据所述用户样本数据和与所述目标区域相关联的模型变量，构建与所述目标区域相对应的针对所述指定业务的预测模型；

识别单元，用于通过所述预测模型从所述目标区域内的用户中识别出所述指定业务的潜在用户。

14.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至12中任一项所述的数据处理方法。

15.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至12中任一项所述的数据处理方法。