CN114428900A

CN114428900A - 潜在用户挖掘方法及装置

Info

Publication number: CN114428900A
Application number: CN202111613316.4A
Authority: CN
Inventors: 蒋佩钊
Original assignee: Shenzhen Jizhi Digital Technology Co Ltd
Current assignee: Shenzhen Xumi Yuntu Space Technology Co Ltd
Priority date: 2021-12-27
Filing date: 2021-12-27
Publication date: 2022-05-03

Abstract

本公开涉及数据处理技术领域，提供了一种潜在用户挖掘方法及装置。该方法包括：通过对第一数据集进行处理，得到第二数据集；其中，该第二数据集所描述的特征范围不大于该第一数据集所描述的特征范围，该第一数据集和该第二数据集包括以下至少之一：用户行为数据、项目信息、用户到访信息；通过该第二数据集训练模型，得到目标模型，其中，该目标模型为通过机器学习方式建立的模型；通过该目标模型确定潜在用户。通过本公开实施例解决了相关技术中采用CTR模型挖掘潜在用户，导致潜在用户挖掘准确率较低的技术问题，进而达到提高潜在用户挖掘准确率的技术效果。

Description

潜在用户挖掘方法及装置

技术领域

本公开涉及数据处理技术领域，尤其涉及一种潜在用户挖掘方法及装置。

背景技术

通过营销APP积累了大量用户线上行为数据，随着用户群的扩大，受人员数和精力限制，如何从用户群中发现购买意愿强的潜在用户，提升商机的筛选、识别能力、用户转化效率，是一个亟待解决的问题。而只是依靠业务经验，通过基本的数据分析，挖掘出的价值行为较为有限。

同时随着业务的发展，APP会进行迭代更新，页面与行为埋点会发生变化，历史用户数据、项目数据与线上的数据会产生差异。由于模型在上线前需要留出线下评估时间，模型上线后，线上数据与模型训练使用的数据差异会更大，模型效果会快速下降。

另外，在模型训练时，需要做模型评估，但是模型评估与业务评估会存在差距。业务不能直接理解模型中的常用指标，例如logloss、接收者操作特征 (Receiver OperatingCharacteristic，简称为ROC)曲线的面积(Area Under the Curve，简称为AUC)等，如何选择合适的指标并将此指标直观展现给业务侧，应对业务变动的需求，提供及时有效的决策支撑，是模型落地时的一道门槛。

目前针对业务要求，常用的技术方案是首先对用户特征进行清理和转换，之后采用主流的点击率预估模型(Click-Through-Rate，简称为CTR)，例如 Wide&Deep、Factorisation-machine supported Neural Networks，简称为FNN、 Deep InterestNetwork，简称为DIN算法建立模型，使用的评估指标通常为 logloss和ROC_AUC。logloss更关注模型预测结果和观察数据(例如：是否点击、是否购买)的吻合程度，ROC AUC更关注能否把推荐商品的顺序排的更好。这些算法依赖用户画像和商品属性，对存在大量离散特征的数据集有较好的表现。但是由于隐私保护，用户画像获取困难，算法效果不能达到预期。CTR 模型中商品属性/项目属性，随时间变化较大。这些算法一般都为深度学习算法，对计算能力有较高要求，模型复杂，这就导致模型在训练集容易过拟合，如果训练集与线上数据时间差别大，则模型准确率衰减速度快。CTR中常用的评估指标logloss和ROC AUC都是一个具体的数字，里面的数学计算逻辑这对于业务侧来说并不直观。

针对相关技术中，采用CTR模型挖掘潜在用户的方式准确率较低的技术问题，尚未提出有效地解决方案。

发明内容

有鉴于此，本公开实施例提供了一种潜在用户挖掘方法、装置、电子设备及计算机可读存储介质，以解决现有技术中采用CTR模型挖掘潜在用户的方式准确率较低的技术问题的问题。

本公开实施例的第一方面，提供了一种潜在用户挖掘方法，包括：对第一数据集进行处理，得到第二数据集；其中，该第二数据集所描述的特征范围不大于该第一数据集所描述的特征范围，该第一数据集和该第二数据集包括以下至少之一：用户行为数据、项目信息、用户到访信息；通过该第二数据集训练模型，得到目标模型，其中，该目标模型为通过机器学习方式建立的模型；通过该目标模型确定潜在用户。

本公开实施例的第二方面，提供了一种潜在用户挖掘装置，包括：第一获取模块，用于对第一数据集进行处理，得到第二数据集；其中，该第二数据集所描述的特征范围不大于该第一数据集所描述的特征范围，该第一数据集和该第二数据集包括以下至少之一：用户行为数据、项目信息、用户到访信息；第二获取模块，用于通过该第二数据集训练模型，得到目标模型，其中，该目标模型为通过机器学习方式建立的模型；确定模块，用于通过该目标模型确定潜在用户。

本公开实施例的第三方面，提供了一种电子设备，包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序，该处理器执行计算机程序时实现上述方法的步骤。

本公开实施例的第四方面，提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述方法的步骤。

本公开实施例与现有技术相比存在的有益效果是：通过对第一数据集进行处理，得到第二数据集；其中，该第二数据集所描述的特征范围不大于该第一数据集所描述的特征范围，该第一数据集和该第二数据集包括以下至少之一：用户行为数据、项目信息、用户到访信息；通过该第二数据集训练模型，得到目标模型，其中，该目标模型为通过机器学习方式建立的模型；通过该目标模型确定潜在用户。也就是说，本公开实施例通过机器学习方法建立模型来自动挖掘线上行为，最终确定出潜在用户，而不是相关技术中采用CTR模型挖掘潜在用户，导致潜在用户挖掘准确率较低的技术问题，进而达到提高潜在用户挖掘准确率的技术效果。

附图说明

为了更清楚地说明本公开实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本公开实施例的应用场景的场景示意图；

图2是本公开实施例提供的一种潜在用户挖掘方法的流程示意图；

图3是本公开实施例提供的另一种潜在用户挖掘方法的流程示意图；

图4是本公开实施例提供的一种召回小于0.2和大于0.2的最邻近数值示意图；

图5是本公开实施例提供的再一种潜在用户挖掘方法的流程示意图；

图6是本公开实施例提供的一种潜在用户挖掘装置的结构示意图；

图7是本公开实施例提供的一种潜在用户挖掘装置的结构示意图(一)；

图8是本公开实施例提供的一种潜在用户挖掘装置的结构示意图(二)；

图9是本公开实施例提供的一种潜在用户挖掘装置的结构示意图(三)；

图10是本公开实施例提供的一种潜在用户挖掘装置的结构示意图(四)；

图11是本公开实施例提供的一种潜在用户挖掘装置的结构示意图(五)；

图12是本公开实施例提供的一种潜在用户挖掘装置的结构示意图(六)；

图13是本公开实施例提供的一种潜在用户挖掘装置的结构示意图(七)；

图14是本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本公开实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本公开。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本公开的描述。

下面将结合附图详细说明根据本公开实施例的一种潜在用户挖掘方法和装置。

图1是本公开实施例的应用场景的场景示意图。该应用场景可以包括终端设备1、2和3、服务器4以及网络5。

终端设备1、2和3可以是硬件，也可以是软件。当终端设备1、2和3为硬件时，其可以是具有显示屏且支持与服务器4通信的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等；当终端设备1、2和3为软件时，其可以安装在如上所述的电子设备中。终端设备1、2和3 可以实现为多个软件或软件模块，也可以实现为单个软件或软件模块，本公开实施例对此不作限制。进一步地，终端设备1、2和3上可以安装有各种应用，例如数据处理应用、即时通信工具、社交平台软件、搜索类应用、购物类应用等。

服务器4可以是提供各种服务的服务器，例如，对与其建立通信连接的终端设备发送的请求进行接收的后台服务器，该后台服务器可以对终端设备发送的请求进行接收和分析等处理，并生成处理结果。服务器4可以是一台服务器，也可以是由若干台服务器组成的服务器集群，或者还可以是一个云计算服务中心，本公开实施例对此不作限制。

需要说明的是，服务器4可以是硬件，也可以是软件。当服务器4为硬件时，其可以是为终端设备1、2和3提供各种服务的各种电子设备。当服务器4 为软件时，其可以是为终端设备1、2和3提供各种服务的多个软件或软件模块，也可以是为终端设备1、2和3提供各种服务的单个软件或软件模块，本公开实施例对此不作限制。

网络5可以是采用同轴电缆、双绞线和光纤连接的有线网络，也可以是无需布线就能实现各种通信设备互联的无线网络，例如，蓝牙(Bluetooth)、近场通信(Near FieldCommunication，NFC)、红外(Infrared)等，本公开实施例对此不作限制。

用户可以通过终端设备1、2和3经由网络5与服务器4建立通信连接，以接收或发送信息等。具体地，在用户将收集到的兴趣点的数据导入到服务器4 之后，服务器4获取待处理兴趣点的第一数据，该第一数据包括待处理兴趣点的第一经纬度和第一分类，并根据第一经纬度和第一分类，对待处理兴趣点进行冲突校验；进一步地，在确定冲突的情况下，服务器4对待处理兴趣点进行冲突处理，以避免数据库中存在大量的重复数据和不可用数据。

需要说明的是，终端设备1、2和3、服务器4以及网络5的具体类型、数量和组合可以根据应用场景的实际需求进行调整，本公开实施例对此不作限制。

图2是本公开实施例提供的一种潜在用户挖掘方法的流程示意图。图2的潜在用户挖掘方法可以由图1的终端设备或服务器执行。

首先，针对本公开实施例的应用场景进行介绍。需要说明的是，本公开实施例的应用场景包括但并不限于以下应用场景。

应用场景一、地产行业新房销售中，通过本公开实施例的机器学习方式建立的模型挖掘潜在用户，将该潜在用户推送给置业顾问进行线下电话沟通，提高到案场用户访问概率。

应用场景二、在电商领域中，通过本公开实施例中的潜在用户挖掘方法，分析用户感兴趣的商品，然后将感兴趣的商品推荐给目标用户。

应用场景三、在金融领域，通过本公开实施例的机器学习方式建立的模型挖掘潜在用户，然后对接线下销售，联系潜在用户办理金融业务，例如，办理信用卡、办理理财业务等。

应用场景四、培训机构通过本公开实施例的机器学习方式建立的模型挖掘潜在用户，然后对接线下销售，联系目标用户购买考试课程等。

下面主要介绍一下，在上述应用场景下的具体实现方法。

如图2所示，该潜在用户挖掘方法包括：

S201，对第一数据集进行处理，得到第二数据集；

需要说明的是，上述第二数据集所描述的特征范围不大于该第一数据集所描述的特征范围。

可选地，上述第一数据集和该第二数据集包括但并不限于：用户行为数据、项目信息、用户到访信息。

例如，将上述第一数据集中主动联系置业顾问的数据、未产生线上行为到访的数据、本身是员工的数据过滤掉，剩下的设置为上述第二数据集。

可选地，上述对第一数据集进行处理，得到第二数据集可以包括：

S11，将该第一数据集按照时间顺序划分为第一训练集、第一验证集、第一测试集；

例如，假设数据集最后的日期为T，按照时间顺序划分第一训练集[T-51， T-21]、第一验证集(T-21，T-14]、第一测试集(T-14，T]。

S12，获取该第一训练集与该第一验证集的分布差异度，并通过该分布差异度过滤该第一数据集，得到该第二数据集。

其中，获取该第一训练集与该第一验证集的分布差异度，并通过该分布差异度过滤该第一数据集，得到该第二数据集可以包括：

S21，将该第一训练集和该第一验证集进行拼接，得到第三数据集；

S22，将该第三数据集中第一比例的数据作为第二训练集，将该第三数据集中第二比例的数据作为第二测试集；

S23，重复执行以下步骤，直至接收者操作特征曲线下面积ROC_AUC小于第一阈值：创建分类器，并获取该分类器的ROC_AUC和最重要特征；判断该ROC_AUC是否小于该第一阈值；其中，该最重要特征为在每个特征的所有分类中带来的平均增益最高的特征，该特征和该第三数据集中的数据对应。

需要说明的是，在本公开实施例中，做特征筛选时，由于训练集与验证集为不同时间段，而特征分布会随时间的变化而变化，而传统的特征选择方式，不能处理训练集与验证集之间的分布差异，容易导致模型在训练集过拟合，最终导致模型表现不佳。本公开实施例采用的构建样本分类器的方式做特征筛选，使用ROC AUC作为特征差异度，通过分类器获取分布差异大的特征，将差异度大的特征剔除。因此本公开实施例适用于特征随时间变化大的数据集。

在做数据集处理时，会遇到一些参数，例如duplicate_rate、差异度val_alpha，这些参数很难通过人的直观感受进行确定，同时数据集处理的策略对结果影响很大，本公开实施例将数据集和特征工程也作为超参搜索的一部分，可以更精准的找到特征处理时应选取的阈值，提升模型准确率。

另外，需要说明的是，上述分类器包括但并不限于：Lightgbm分类器、决策树分类器、随机森林分类器、xgboost分类器、逻辑回归分类器。

可选地，上述第一阈值可以为0.7。

可选地，上述对第一数据集进行处理，得到第二数据集还可以包括：

S31，增加比例特征，其中，该比例特征用于描述该第一数据集和该第二数据集所指示的数据占对应的总的数据的比例。

例如，用户访问某页面次数占其访问所有页面次数比例、用户访问某项目时长占其所有访问时长的比例、项目库存房源数占总房源数比例等。

通过上述步骤，对第一数据集进行过滤，可以有效降低模型衰减速度。

S202，通过该第二数据集训练模型，得到目标模型，其中，该目标模型为通过机器学习方式建立的模型；

可选地，通过该第二数据集训练模型，得到目标模型可以包括：

S41，定义评估函数partial PR_AUC；

S42，给定分类模型超参数，通过该分类模型在该第二训练集上建立模型，使用第二验证集做训练迭代的早停；

需要说明的是，上述分类模型包括但并不限于：使用lightgbm建立的模型、xgboost分类模型、deepfm分类模型。

S43，判断该模型的partial PR_AUC在该第二验证集上是否提升；

S44，如果该模型的partial PR_AUC在该第二验证集上不再提升，则停止训练，得到最终的partial PR_AUC值；

S45，判断当前搜索次数是否达到最大超参搜索次数；

需要说明的是，上述超参搜索包括但并不限于：随机搜索、网格搜索、贝叶斯搜索。

S46，在判断结果为是的情况下，使用该最终的partial PR_AUC值和对应的超参数，训练得到该目标模型。

可选地，上述定义评估函数partial PR_AUC可以包括：

S51，计算出所有预测值对应的准确率P和召回率R；

S52，判断该召回率R等于第二阈值的值是否存在，如果不存在，获取该召回率R小于该第二阈值和大于该第二阈值的最邻近数值，将新坐标放入到PR 坐标点列表；

需要说明的是，上述第二阈值包括但并不限于：0.2。

S53，通过以下公式(1)计算出该召回率R为该第二阈值的准确率：

S54，选择该PR坐标点列表中召回率小于等于该第二阈值的点，并通过如下公式(2)计算该partial PR_AUC：

pPR_AUC＝∑_i(R_i-R_i-1)P_i (2)。

另外，上述计算出该召回率R为该第二阈值的准确率还可以包括：

S61，将大于该第二阈值的最邻近数值设置为该准确率。

需要说明的是，上述partial PR_AUC、到访率召回表，是因为在业务目标比较模糊的情况下，业务侧不能给出具体的准确率和召回率，同时随着业务人力的变动，最终召回的数值是可以变动的，通过到访率召回表，业务侧可以通过人力来选择用户的跟进数。到访率召回表中结果的好坏需要转换成指标给到模型，模型才可以在训练阶段进行早停，才可以进行后续的模型选择。与之最相似的指标就是PR AUC，是由召回率与准确率构成的曲线下面积，但是由于线上用户群庞大，业务侧的精力只够关心头部用户，而PR AUC关注的是全部用户，因此需要修改为partial PR_AUC，使得模型训练目标与业务目标一致。

通过上述步骤，可以通过机器学习方法建立模型来自动挖掘线上行为，最终确定出潜在用户，进而达到提高潜在用户挖掘准确率的技术效果。

S203，通过该目标模型确定潜在用户。

可选地，上述通过该目标模型确定潜在用户包括：

S71，使用该目标模型预测该第二测试集用户到访概率；

S72，选择该用户到访概况大于第三阈值的用户作为该潜在用户。

综上，根据本公开实施例提供的技术方案：通过对第一数据集进行处理，得到第二数据集；其中，该第二数据集所描述的特征范围不大于该第一数据集所描述的特征范围，该第一数据集和该第二数据集包括以下至少之一：用户行为数据、项目信息、用户到访信息；通过该第二数据集训练模型，得到目标模型，其中，该目标模型为通过机器学习方式建立的模型；通过该目标模型确定潜在用户。也就是说，本公开实施例通过机器学习方法建立模型来自动挖掘线上行为，最终确定出潜在用户，而不是相关技术中采用CTR模型挖掘潜在用户，导致潜在用户挖掘准确率较低的技术问题，进而达到提高潜在用户挖掘准确率的技术效果。

下面以房地产销售APP为例，对本公开实施例进行举例说明。

本示例使用的数据集主要包括用户线上行为、项目信息、到访信息，此数据集中的数据是稀疏的，包含非常多的0值，同时随时间的变化其分布会有波动，部分特征波动较大；项目信息存在缺失和滞后的情况；用户画像的数据不能获取。在获取数据集之后，会对样本和特征进行过滤，同时会做特征工程，之后建立模型，通过行为数据、项目信息预测用户是否会到访。将上述对样本和特征操作中需要的参数与模型的超参数一起进行参数搜索。再通过测试集的评估函数来确定选用的参数。最后通过选定的参数获取模型和模型在测试集上的分桶准确率，确定模型上线后跟进的用户。

1、数据获取：数据集使用最近51天活跃过的用户信息，对用户的90天行为进行聚合。主要的特征为项目特征、用户特征、用户项目特征、是否到访y，每一行为一个样本，数据集样式如表1所示：

表1

项目特征：项目基础信息、POI信息(Point of Interest，兴趣点，例如项目周边学校、旅游景点、地铁公交等数据)、售卖信息、库存信息、项目页面访问情况。

用户特征：用户所有页面访问统计、时长统计、搜索统计。

用户项目特征：用户在具体项目上的页面统计、行为统计、时长统计。

2、数据集划分：由于数据集会随时间变化发生数据分布的变化，因此不能使用随机划分数据集的方式。笔者采用如下方式划分数据集：假设数据集最后的日期为T，按照时间顺序划分训练集dataset_train[T-51，T-21]、验证集 dataset_val(T-21，T-14]、测试集dataset_test(T-14，T]。

3、样本筛选：保留符合业务逻辑的样本。使用到访与最后活跃时间差小于等于14天的样本、剔除主动联系置业顾问的样本、剔除未产生线上行为到访的样本、剔除本身是员工的样本。

4、剔除重复数值多的特征。特征是对用户线上页面和点击行为进行统计，有些页面的访问量和行为的触发量很少，因此特征中包含大量的0值，这类特征包含的信息量非常小，而且引入了不必要的复杂性，笔者对相同值占比超过给定阈值duplicate_rate的特征进行删除。在此项目中duplicate_rate的取值范围为[99％，99.9％]

5、获取训练集与验证集特征分布差异度，剔除分布变化大的特征。给定差异度val_alpha，通过以下步骤获取分布差异大的特征，删除这些差异大的特征。

a)将训练集dataset_train和验证集dataset_val拼接，将y特征删除，新增一列is_val，如果样本在训练集中，is_val填0，如果样本在验证集中，is_val 填1，形成新数据dataset_dist。

b)对dataset_dist进行随机采样，选择70％作为训练集dataset_dist_train，30％作为测试集dataset_dist_test。

c)使用lightgbm构建样本分类器，此样本分类器的训练集为 dataset_dist_train，测试集为dataset_dist_test，metric为ROC_AUC(ROC：receiver operatingcharacteristic curve，接收者操作特征曲线，横轴为实际为阴性的样本中，被错误地判断为阳性之比率，纵轴为实际为阳性的样本中，被正确地判断为阳性之比率；AUC：Area underCurve，曲线下面积)，迭代次数100次。此分类器用于区分数据是来自训练集dataset_train还是验证集dataset_val，使用 ROC_AUC作为评估此分类器好坏的标准，如果分类器的ROC_AUC在0.5-0.7，说明样本分类器无法区分样本是来源于训练集dataset_train，还是验证集dataset_val，则原始数据中训练集、验证集分布是一致的；如果AUC较大，如 0.9，说明样本分类器很容易区分样本来源，间接说明训练集与验证集存在很大差异。

d)获取分类器的ROC_AUC_1、此分类器的最重要特征f_1，其中最重要特征为在每个特征的所有分类中带来的平均增益最高的特征。

e)如果ROC_AUC_1小于0.7，则停止；如果ROC_AUC_1大于等于0.7，则在训练集dataset_dist_train和测试集dataset_dist_test中删除f_1，重复执行步骤c和d，依次获取ROC_AUC列表[ROC_AUC_1、ROC_AUC_2、 ROC_AUC_3、……、ROC_AUC_n]和其对应的特征列表[f_1、f_2、f_3、……、 f_n]。

f)给定差异度val_alpha，获取大于val_alpha的最小ROC_AUC，例如 ROC_AUC_i，并获取得到此ROC_AUC_i时已经删除的特征列表[f_1，f_2，f_3，…，f_i]，在此项目中笔者使用的val_alpha取值范围为[0.7，1.0]。具体流程示意如图3所示。

6、特征工程：增加比例特征，例如用户访问某页面次数占其访问所有页面次数比例、用户访问某项目时长占其所有访问时长的比例、项目库存房源数占总房源数比例等。

7、定义评估函数。笔者使用的评估函数是partial PR_AUC。由于到访人数的占比大约为千分之2，样本是极其不均衡的，同时笔者更关心正样本，因此选用到了PR AUC。假设此项目中关注的最大召回率为0.2时，模型的整体表现，因此选择partial PR_AUC。下面是partial PR_AUC的具体计算方式：

a)计算出所有预测值对应的准确率P(准确率＝提取出的正样本条数/提取出的样本条数，是预测正确的概率)和召回率R(召回率＝提取出的正样本条数/样本中所有正样本条数，是正样本中被找到的比例)，按照召回率从小到大排序，构成准确率列表[P1，P2，…，Pn]和召回率列表[R1，R2，…，Rn]。以召回率为横坐标，准确率为纵坐标，构成PR坐标点列表[(P1，R1)，(P2，R2)，…， (Pn，Rn)，]

b)首先判断召回率等于0.2的值是否存在，如果不存在，再获取召回小于 0.2和大于0.2的最邻近数值如图4所示。

c)通过

计算出召回0.2时的准确率。将新坐标放入到PR坐标点列表。

d)选择PR坐标点列表中召回率小于等于0.2的点，通过如下公式计算 partialPR_AUC：

8、模型训练。给定lightgbm超参数，通过lightgbm在训练集dataset_train 上建立模型，使用验证集dataset_val做训练迭代的早停，如果模型的partial PR_AUC在验证集dataset_val上不再提升，则停止训练，记录最终的partial PR_AUC值。

9、参数调节。在给定的区间中，随机选取步骤4中使用的duplicate_rate、步骤5中使用的val_alpha、步骤8中的模型超参数，重新执行步骤4-步骤8至最大迭代次数(例如500次)，记录最大的partial PR_AUC值和其对应超参数，并使用这些参数训练出最终模型。

10、通过测试集阈值选择。使用最终模型对测试集进行预测，按照每桶约 200个样本对测试集中预测的y分桶，获取桶的区间、到访率、召回率等信息，其中到访率就是准确率，是为了方便业务理解，改变了名称。具体如下表2所示：

表2

根据业务需求，找到合适的准确率与召回率，推送预测的y在对应分桶区间内的样本。总流程图如5所示。

综上，本公开实施例针对业务场景选用的算法是基于梯度提升树(GradientBoosting Decison Tree，以下简称GBDT)GBDT的算法，算力要求小。同时为了解决数据随时间分布变化大的情况，引入特殊的特征选择方式，找出分布变化大的特征，在这些特征上学习到的规则是不适用于线上情形的，筛选掉这些特征可以有效降低模型衰减速度。模型评估时使用自定义的评估函数，其中间结果可以转化为业务侧容易理解的用户意愿强度打分表，方便业务使用。

换句话来说，本公开实施例搭建一套提升自渠获客转化赋能的商机推荐系统。通过机器学习方法建立模型来自动发掘有价值的线上行为，在数据处理时优先考虑数据会随时间变化导致模型下降的问题，自动剔除分布变化大的特征，选择合适的机器学习评估方法，最终模型结果以业务容易理解的报表方式展现，方便业务人员基于人力资源情况快速做出决策。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

下述为本公开装置实施例，可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。

图6是本公开实施例提供的一种潜在用户挖掘装置的示意图。

应用场景二、在电商领域中，通过本公开实施例中的潜在用户挖掘装置，分析用户感兴趣的商品，然后将感兴趣的商品推荐给目标用户。

下面主要介绍一下，在上述应用场景下对应的装置结构。

如图6所示，该潜在用户挖掘装置包括：

第一获取模块601，被配置为对第一数据集进行处理，得到第二数据集；其中，该第二数据集所描述的特征范围不大于该第一数据集所描述的特征范围，该第一数据集和该第二数据集包括以下至少之一：用户行为数据、项目信息、用户到访信息；

如图7所示，上述第一获取模块601包括：

划分单元701，用于将该第一数据集按照时间顺序划分为第一训练集、第一验证集、第一测试集；

获取单元702，用于获取该第一训练集与该第一验证集的分布差异度，并通过该分布差异度过滤该第一数据集，得到该第二数据集。

其中，如图8所示，获取单元702包括：

拼接子单元801，用于将该第一训练集和该第一验证集进行拼接，得到第三数据集；

第一设置子单元802，将该第三数据集中第一比例的数据作为第二训练集，将该第三数据集中第二比例的数据作为第二测试集；

处理子单元803，用于重复执行以下步骤，直至接收者操作特征曲线下面积ROC_AUC小于第一阈值：创建分类器，并获取该分类器的ROC_AUC和最重要特征；判断该ROC_AUC是否小于该第一阈值；其中，该最重要特征为在每个特征的所有分类中带来的平均增益最高的特征，该特征和该第三数据集中的数据对应。

可选地，上述第一阈值可以为0.7。

可选地，如图9所示，上述第一获取模块601包括：

增加单元901，用于增加比例特征，其中，该比例特征用于描述该第一数据集和该第二数据集所指示的数据占对应的总的数据的比例。

通过上述装置，对第一数据集进行过滤，可以有效降低模型衰减速度。

第二获取模块602，被配置为通过该第二数据集训练模型，得到目标模型，其中，该目标模型为通过机器学习方式建立的模型；

可选地，如图10所示，上述第二获取模块602可以包括：

定义单元1001，用于定义评估函数partial PR_AUC；

建立单元1002，用于给定分类模型超参数，通过该分类模型在该第二训练集上建立模型，使用第二验证集做训练迭代的早停；

第一判断单元1003，用于判断该模型的partial PR_AUC在该第二验证集上是否提升；

第一训练单元1004，用于在该模型的partial PR_AUC在该第二验证集上不再提升的情况下，停止训练，得到最终的partial PR_AUC值；

第二判断单元1005，用于判断当前搜索次数是否达到最大超参搜索次数；

第二训练单元1006，用于在判断结果为是的情况下，使用该最终的partial PR_AUC值和对应的超参数，训练得到该目标模型。

可选地，如图11所示，上述定义单元1001包括：

第一计算子单元1101，用于计算出所有预测值对应的准确率P和召回率R；

判断子单元1102，用于判断该召回率R等于第二阈值的值是否存在，如果不存在，获取该召回率R小于该第二阈值和大于该第二阈值的最邻近数值，将新坐标放入到PR坐标点列表；

需要说明的是，上述第二阈值包括但并不限于：0.2。

第二计算子单元1103，用于通过以下公式(1)计算出该召回率R为该第二阈值的准确率：

第三计算子单元1004，用于选择该PR坐标点列表中召回率小于等于该第二阈值的点，并通过如下公式(2)计算该partial PR_AUC：

pPR_AUC＝∑_i(R_i-R_i-1)P_i (2)。

另外，如图12所示，上述定义单元1001还可以包括：

第二设置子单元1201，用于将大于该第二阈值的最邻近数值设置为该准确率。

通过上述装置，可以通过机器学习方法建立模型来自动挖掘线上行为，最终确定出潜在用户，进而达到提高潜在用户挖掘准确率的技术效果。

确定模块603，被配置为通过该目标模型确定潜在用户。

可选地，如图13所示，上述确定模块603包括：

预测子单元1301，用于使用该目标模型预测该第二测试集用户到访概率；

选择子单元1302，用于选择该用户到访概况大于第三阈值的用户作为该潜在用户。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本公开实施例的实施过程构成任何限定。

图14是本公开实施例提供的电子设备14的示意图。如图14所示，该实施例的电子设备14包括：处理器1401、存储器1402以及存储在该存储器1402 中并且可在处理器1401上运行的计算机程序1403。处理器1401执行计算机程序1403时实现上述各个方法实施例中的步骤。或者，处理器1401执行计算机程序1403时实现上述各装置实施例中各模块/单元的功能。

示例性地，计算机程序1403可以被分割成一个或多个模块/单元，一个或多个模块/单元被存储在存储器1402中，并由处理器1401执行，以完成本公开。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序1403在电子设备14中的执行过程。

电子设备14可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备14可以包括但不仅限于处理器1401和存储器1402。本领域技术人员可以理解，图14仅仅是电子设备14的示例，并不构成对电子设备14 的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如，电子设备还可以包括输入输出设备、网络接入设备、总线等。

处理器1401可以是中央处理单元(Central Processing Unit，CPU)，也可以是其它通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列 (Field-Programmable Gate Array，FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器1402可以是电子设备14的内部存储单元，例如，电子设备14的硬盘或内存。存储器1402也可以是电子设备14的外部存储设备，例如，电子设备14上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(FlashCard)等。进一步地，存储器1402 还可以既包括电子设备14的内部存储单元也包括外部存储设备。存储器1402 用于存储计算机程序以及电子设备所需的其它程序和数据。存储器1402还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开的范围。

在本公开所提供的实施例中，应该理解到，所揭露的装置/电子设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/电子设备实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本公开实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可以存储在计算机可读存储介质中，该计算机程序在被处理器执行时，可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如，在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上实施例仅用以说明本公开的技术方案，而非对其限制；尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围，均应包含在本公开的保护范围之内。

Claims

1.一种潜在用户挖掘方法，其特征在于，包括：

对第一数据集进行处理，得到第二数据集；其中，所述第二数据集所描述的特征范围不大于所述第一数据集所描述的特征范围，所述第一数据集和所述第二数据集包括以下至少之一：用户行为数据、项目信息、用户到访信息；

通过所述第二数据集训练模型，得到目标模型，其中，所述目标模型为通过机器学习方式建立的模型；

通过所述目标模型确定潜在用户。

2.根据权利要求1所述的方法，其特征在于，对第一数据集进行处理，得到第二数据集包括：

将所述第一数据集按照时间顺序划分为第一训练集、第一验证集、第一测试集；

获取所述第一训练集与所述第一验证集的分布差异度，并通过所述分布差异度过滤所述第一数据集，得到所述第二数据集。

3.根据权利要求2所述的方法，其特征在于，所述获取所述第一训练集与所述第一验证集的分布差异度，并通过所述分布差异度过滤所述第一数据集，得到所述第二数据集包括：

将所述第一训练集和所述第一验证集进行拼接，得到第三数据集；

将所述第三数据集中第一比例的数据作为第二训练集，将所述第三数据集中第二比例的数据作为第二测试集；

重复执行以下步骤，直至接收者操作特征曲线下面积ROC_AUC小于第一阈值：创建分类器，并获取所述分类器的ROC_AUC和最重要特征；判断所述ROC_AUC是否小于所述第一阈值；其中，所述最重要特征为在每个特征的所有分类中带来的平均增益最高的特征，所述特征和所述第三数据集中的数据对应。

4.根据权利要求3所述的方法，其特征在于，所述对第一数据集进行处理，得到第二数据集还包括：

增加比例特征，其中，所述比例特征用于描述所述第一数据集和所述第二数据集所指示的数据占对应的总的数据的比例。

5.根据权利要求4所述的方法，其特征在于，通过所述第二数据集训练模型，得到目标模型包括：

定义评估函数partial PR_AUC；

给定分类模型超参数，通过所述分类模型在所述第二训练集上建立模型，使用第二验证集做训练迭代的早停；

判断所述模型的partial PR_AUC在所述第二验证集上是否提升；

如果所述模型的partial PR_AUC在所述第二验证集上不再提升，则停止训练，得到最终的partial PR_AUC值；

判断当前搜索次数是否达到最大超参搜索次数；

在判断结果为是的情况下，使用所述最终的partial PR_AUC值和对应的超参数，训练得到所述目标模型。

6.根据权利要求5所述的方法，其特征在于，定义评估函数partial PR_AUC包括：

计算出所有预测值对应的准确率P和召回率R；

判断所述召回率R等于第二阈值的值是否存在，如果不存在，获取所述召回率R小于所述第二阈值和大于所述第二阈值的最邻近数值，将新坐标放入到PR坐标点列表；

通过以下公式(1)计算出所述召回率R为所述第二阈值的准确率：

选择所述PR坐标点列表中召回率小于等于所述第二阈值的点，并通过如下公式(2)计算所述partial PR_AUC：

pPR_AUC＝∑_i(R_i-R_i-1)P_i (2)。

7.根据权利要求6所述的方法，其特征在于，计算出所述召回率R为所述第二阈值的准确率还包括：

将大于所述第二阈值的最邻近数值设置为所述准确率。

8.根据权利要求3所述的方法，其特征在于，通过所述目标模型确定潜在用户包括：

使用所述目标模型预测所述第二测试集用户到访概率；

选择所述用户到访概况大于第三阈值的用户作为所述潜在用户。

9.根据权利要求3所述的方法，其特征在于，所述分类器包括以下至少之一：

Lightgbm分类器、决策树分类器、随机森林分类器、xgboost分类器、逻辑回归分类器。

10.根据权利要求5所述的方法，其特征在于，所述分类模型包括以下模型至少之一：

使用lightgbm建立的模型、xgboost分类模型、deepfm分类模型。

11.根据权利要求5所述的方法，其特征在于，所述超参搜索包括以下至少之一：

随机搜索、网格搜索、贝叶斯搜索。

12.一种潜在用户挖掘装置，其特征在于，包括：

第一获取模块，用于对第一数据集进行处理，得到第二数据集；其中，所述第二数据集所描述的特征范围不大于所述第一数据集所描述的特征范围，所述第一数据集和所述第二数据集包括以下至少之一：用户行为数据、项目信息、用户到访信息；

第二获取模块，用于通过所述第二数据集训练模型，得到目标模型，其中，所述目标模型为通过机器学习方式建立的模型；

确定模块，用于通过所述目标模型确定潜在用户。

13.一种电子设备，包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至11中任一项所述方法的步骤。

14.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至11中任一项所述方法的步骤。