CN107729469A

CN107729469A - 用户挖掘方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN107729469A
Application number: CN201710948943.0A
Authority: CN
Inventors: 殷良鹰; 邱野; 蒋凡
Original assignee: Beijing Xiaodu Information Technology Co Ltd
Current assignee: Beijing Xiaodu Information Technology Co Ltd
Priority date: 2017-10-12
Filing date: 2017-10-12
Publication date: 2018-02-23

Abstract

本公开实施例公开了一种用户挖掘方法、装置、电子设备及计算机可读存储介质。所述方法包括：获取第一用户的第一身份数据，所述第一用户为在预设时间周期内在第一系统平台中新注册的用户；根据所述第一用户的第一身份数据以及第二系统平台确定所述第一用户的第一用户画像数据；利用所述第一用户画像数据训练所述第一系统平台的用户挖掘模型；利用训练好的所述用户挖掘模型对待筛选用户进行评估；根据评估结果确定所述待筛选用户是否为潜在用户。本实施例通过借用用户在其他系统平台中的用户画像数据，来训练得到新上线系统平台的用户挖掘模型，有效地解决了新上线系统平台的冷启动时期拉新转化率较低的问题。

Description

用户挖掘方法、装置、电子设备及计算机可读存储介质

技术领域

本公开涉及计算机技术领域，具体涉及一种用户挖掘方法、装置、电子设备及计算机可读存储介质。

背景技术

离群点检测是数据挖掘中重要的一部分，其主要是用于发现与大部分对象显著不同的对象。大部分数据挖掘方法都将这种差异信息视为噪声而丢弃，然而在一些应用中，罕见的数据可能蕴含着更大的研究价值。离群点检测已经被广泛应用于电信和信用卡的诈骗检测、贷款审批、电子商务、网络入侵、天气预报等领域，如可以利用离群点检测分析运动员的统计数据，以发现异常的运动员。常用离群点检测方法有基于统计，基于邻近度，基于密度，基于聚类等方法。基于统计模型的离群点检测方法需要满足统计学原理，如果分布已知，则检验可能非常有效。通过估计概率分布的参数来建立一个数据模型，如果一个数据对象不能不能很好的跟该模型拟合，即如果它很可能不服从该分布，则它是一个离群点。

发明内容

本公开实施例提供一种用户挖掘方法、装置、电子设备及计算机可读存储介质。。

第一方面，本公开实施例中提供了一种用户挖掘方法。

具体的，所述用户挖掘方法，包括：

获取第一用户的第一身份数据，所述第一用户为在预设时间周期内在第一系统平台中新注册的用户；

根据所述第一用户的第一身份数据以及第二系统平台确定所述第一用户的第一用户画像数据；

利用所述第一用户画像数据训练所述第一系统平台的用户挖掘模型；

利用训练好的所述用户挖掘模型对待筛选用户进行评估；

根据评估结果确定所述待筛选用户是否为潜在用户。

结合第一方面，本公开在第一方面的第一种实现方式中，根据所述第一用户的第一身份数据以及第二系统平台确定所述第一用户的第一用户画像数据，包括：

根据所述第一身份数据获取在所述第二系统平台中与所述第一用户相关联的第二用户；

获取所述第二用户在所述第二系统平台中的第二用户画像数据；

将所述第二用户画像数据设置为第一用户画像数据。

结合第一方面，本公开在第一方面的第二种实现方式中，获取所述第二用户在所述第二系统平台中的第二用户画像数据，包括：

确定与所述第二用户相关联的所述第一用户在所述第一系统平台的注册时间；

确定在所述第二系统平台中所述第二用户在所述注册时间之前的最新第二用户画像数据。

结合第一方面的第二种实现方式，本公开在第一方面的第三种实现方式中，根据所述第一身份数据获取在所述第二系统平台中与所述第一用户相关联的第二用户，包括：

获取所述第二系统平台中用户身份数据与所述第一用户的第一身份数据具有预设关系的第二用户。

结合第一方面的第三种实现方式，本公开在第一方面的第四种实现方式中，获取所述第二系统平台中用户身份数据与所述第一用户的第一身份数据具有预设关系的第二用户，包括：

获取所述第二系统平台中用户身份数据与所述第一用户的第一身份数据相同的第二用户。

结合第一方面，本公开在第一方面的第五种实现方式中，利用所述第一用户画像数据训练所述第一系统平台的用户挖掘模型，包括：

将所述第一用户画像数据设置为正样本数据训练所述用户挖掘模型。

结合第一方面，本公开在第一方面的第六种实现方式中，还包括：

在所述待筛选用户为潜在用户时，对所述待筛选用户执行预设的拉新处理方法。

第二方面，本公开实施例提供了一数据挖掘装置，包括：

获取模块，被配置为获取第一用户的第一身份数据，所述第一用户为在预设时间周期内在第一系统平台中新注册的用户；

第一确定模块，被配置为根据所述第一用户的第一身份数据以及第二系统平台确定所述第一用户的第一用户画像数据；

训练模块，被配置为利用所述第一用户画像数据训练所述第一系统平台的用户挖掘模型；

预测模块，被配置为利用训练好的所述用户挖掘模型对待筛选用户进行评估；

第二确定模块，被配置为根据评估结果确定所述待筛选用户是否为潜在用户。

结合第二方面，本公开在第二方面的第一种实现方式中，所述第一确定模块包括：

第一获取子模块，被配置为根据所述第一身份数据获取在所述第二系统平台中与所述第一用户相关联的第二用户；

第二获取子模块，被配置为获取所述第二用户在所述第二系统平台中的第二用户画像数据；

第一设置子模块，被配置为将所述第二用户画像数据设置为第一用户画像数据。

结合第二方面，本公开在第二方面的第二种实现方式中，所述获取模块包括：

第一确定子模块，被配置为确定与所述第二用户相关联的所述第一用户在所述第一系统平台的注册时间；

第二确定子模块，被配置为确定在所述第二系统平台中所述第二用户在所述注册时间之前的最新第二用户画像数据。

结合第二方面的第二种实现方式，本公开在第二方面的第三种实现方式中，所述第一获取子模块包括：

第三获取子模块，被配置为获取所述第二系统平台中用户身份数据与所述第一用户的第一身份数据具有预设关系的第二用户。

结合第二方面的第三种实现方式，本公开在第二方面的第四种实现方式中，所述第三获取子模块包括：

第四获取子模块，被配置为获取所述第二系统平台中用户身份数据与所述第一用户的第一身份数据相同的第二用户。

结合第二方面，本公开在第二方面的第五种实现方式中，所述训练模块包括：

第二设置子模块，被配置为将所述第一用户画像数据设置为正样本数据训练所述用户挖掘模型。

结合第二方面，本公开在第二方面的第六种实现方式中，还包括：

执行模块，被配置为在所述待筛选用户为潜在用户时，对所述待筛选用户执行预设的拉新处理方法。

所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

在一个可能的设计中，用户挖掘装置的结构中包括存储器和处理器，所述存储器用于存储一条或多条支持用户挖掘装置执行上述第一方面中用户挖掘方法的计算机指令，所述处理器被配置为用于执行所述存储器中存储的计算机指令。所述用户挖掘装置还可以包括通信接口，用于用户挖掘装置与其他设备或通信网络通信。

第三方面，本公开实施例提供了一种电子设备，包括存储器和处理器；其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现第一方面所述的方法步骤。

第四方面，本公开实施例提供了一种计算机可读存储介质，用于存储用户挖掘装置所用的计算机指令，其包含用于执行上述第一方面中用户挖掘方法为用户挖掘装置所涉及的计算机指令。

本公开实施例提供的技术方案可以包括以下有益效果：

本公开实施例在潜在用户挖掘过程中，通过从其他系统平台获得新注册用户的画像数据，对用户挖掘模型进行训练，并利用训练好的用户挖掘模型对待筛选用户评估，并根据评估结果确定待筛选用户是否为潜在用户。本实施例的这种方式特别适用于系统平台冷启动阶段的新用户挖掘过程中，由于在冷启动阶段，系统平台上的用户画像数据较为缺失，不够全面，缺乏筛选用户的依据，因此通过借用该用户在其他系统平台中的用户画像数据，来训练得到新上线系统平台的用户挖掘模型，并利用用户挖掘模型对待筛选用户进行评估，最终得到潜在的用户，有效地解决了新上线系统平台的冷启动时期拉新转化率较低的问题，并且使得新上线系统平台能够快速积累用户的有效画像数据，加速度过冷启动时期。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

结合附图，通过以下非限制性实施方式的详细描述，本公开的其它特征、目的和优点将变得更加明显。在附图中：

图1示出根据本公开一实施方式的用户挖掘方法的流程图；

图2示出根据图1所示实施方式的步骤S102的流程图；

图3示出根据图2所示实施方式的步骤S202的流程图；

图4示出根据本公开一实施方式的用户挖掘装置的结构框图；

图5示出根据图4所示实施方式的第一确定模块402的结构框图；

图6示出根据图5所示实施方式的获取模块502的结构框图；

图7是适于用来实现根据本公开一实施方式的用户挖掘方法的电子设备的结构示意图。

具体实施方式

下文中，将参考附图详细描述本公开的示例性实施方式，以使本领域技术人员可容易地实现它们。此外，为了清楚起见，在附图中省略了与描述示例性实施方式无关的部分。

在本公开中，应理解，诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在，并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。

另外还需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

对于系统平台，从未在本系统平台注册的竞品用户(即竞争对手的用户)中吸引新用户是O2O(online to offline，线上线下)业务的核心问题之一。然而由于将所有竞品用户作为拉新对象成本较高，并且由于新注册用户没有本系统平台上的行为数据，缺乏筛选用户的依据，导致竞品策反拉新问题具有非常高的困难度。通常，为了降低成本，可以考虑从所有竞品用户中筛选出潜在的用户进行策反拉新。在已有多次策反拉新的情况下可以使用分类器训练的方法，使用历次拉新未召回用户作为负样本，已召回用户作为正样本，训练分类器，对用户进行评估并以此进行拉新，从而显著降低拉新成本。

然而上述方案的假设前提是本系统平台已拥有大量历史策反拉新记录，据此可以提取正负样本并训练高质量二分类模型。但是存在另外一些情况，即系统平台无历史拉新记录，或者数量较少，不足以支撑分类器的训练。这种情况称为拉新系统的冷启动问题。本公开实施例将策反拉新冷启动问题转化为离群点检测问题进行处理。离群点(outlier)是一个数据对象，它显著不同于其他数据对象，好像它是被不同的机制产生一样。离群点检验就是找出其行为很不同于预期对象的过程。具体到拉新系统上，如果假设对感兴趣的用户与不感兴趣用户在大数据画像上具有显著差异，则可以将前者当作正常样本点，后者当作离群点进行处理。

图1示出根据本公开一实施方式的用户挖掘方法的流程图。如图1所示，所述用户挖掘方法包括以下步骤S101-S105：

在步骤S101中，获取第一用户的第一身份数据，所述第一用户为在预设时间周期内在第一系统平台中新注册的用户；

在步骤S102中，根据所述第一用户的第一身份数据以及第二系统平台确定所述第一用户的第一用户画像数据；

在步骤S103中，利用所述第一用户画像数据训练所述第一系统平台的用户挖掘模型；

在步骤S104中，利用训练好的所述用户挖掘模型对待筛选用户进行评估；

在步骤S105中，根据评估结果确定所述待筛选用户是否为潜在用户。

在本实施例中，第一系统平台可以是新上线不久的系统平台(例如电商运营平台)，即第一系统平台的运营时间较短，用户数量以及用户画像数据等可能较少。该用户挖掘方法可以在第一系统平台的冷启动阶段执行，即第一系统平台上线后，有系统用户，但是由于运营时间较短，用户在第一系统平台上的用户画像数据不够全面的阶段。

为了发展新用户，第一系统平台可以采取一些拉新措施(例如发放代金券)吸引新的用户。但是，如果对于所有意向用户(即将来可能成为第一系统平台用户的用户)都采用拉新措施，会导致第一系统平台的成本上升，且不利于工作的开展。已有技术中采用的方法多为人工根据意向用户的年龄、职业等进行筛选，然而人工筛选不但成本较高，且主观性较强，可能会导致潜在用户的流失。然而，通过本公开上述实施例的用户挖掘方法，可以通过样本训练得到的用户挖掘模型从所有意向用户中挖掘出最有可能成为第一系统平台用户的一部分用户实施拉新措施，相较于已有技术成本较低，且准确率较高。

本实施例的上述用户挖掘方法通过用户挖掘模型来预测意向用户的潜在价值，而用户挖掘模型可以通过已有的用户画像数据进行训练得到。本实施例中，数据挖掘模型可以是二分类模型，其用于将待筛选用户即意向用户分类为具有潜在价值和不具有其潜在价值的两类用户。例如，利用第一系统平台的数据挖掘模型对某一待筛选用户A进行评估时，其输出结果有两种：是和否。如果输出结果为是，则表明用户A是潜在用户，将来成为第一系统平台的用户的可能性较大，因此可以采取拉新措施；如果输出结果为否，则表明用户A成为第一系统平台的用户的可能性较小，没有必要对其采取拉新措施。

在第一系统平台的冷启动阶段，由于第一系统平台运行时间较短，已注册用户的用户画像数据缺失，而如果采用第一系统平台中已注册用户的化学数据训练用户挖掘模型的话，需要获得已注册用户的画像数据。因此，本实施例首先获取第一系统平台中预定时间周期内注册的第一用户的第一身份数据，第一身份数据可以包括能够唯一标识该第一用户的用户id、手机号、邮箱等等；在获得第一身份数据之后，从第二系统平台中确定与第一身份数据相关的第一用户画像数据，可以是对应该第一身份数据的同一用户在第二系统平台产生的用户画像数据；第二系统平台可以是不同于第一系统平台的、处于非冷启动阶段的系统平台(例如电商运营平台)，在获得第一用户画像数据后，利用第一用户画像数据训练第一系统平台的用户挖掘模型。

本实施例中，第一用户可以是第一系统平台中在预定时间周期内新注册的用户，由于用户挖掘模型是用于挖掘潜在用户，即预测未注册的意向用户的潜在价值的，因此通过在一定时间周期内新注册用户的用户画像数据来训练用户挖掘模型，能够使得用户挖掘模型对于新用户的特征更加敏感，更能准确的预测出潜在用户。

通过本实施例的这种方式，在第一系统平台中没有能够使用的训练样本数据的情况下，通过从另外一个系统平台即第二系统平台获得相应的训练样本数据即第一用户画像数据，解决了第一系统平台在冷启动阶段无训练样本数据可用的情况下用户挖掘模型训练的问题，并且采用第一系统平台上已注册用户的身份数据从第二系统平台获得相关联的第一用户画像数据即训练样本数据，使得训练结果能够达到一定的精确度。

例如，对于百度外卖平台而言，由于其账号体系依托于百度，数据互通较为容易，因而可以通过用户在百度系应用(如百度地图、百度搜索)上的行为方式判断用户是否具有拉新价值。目前百度系应用在国内具有较高的覆盖度，并且百度对用户在不同应用上的行为进行整合和建模形成了涵盖用户各个方面行为的大数据画像，因而百度用户大数据画像可以成为识别潜在平台用户的重要证据。经过用户及百度授权后，百度外卖平台可使用百度系应用上的用户大数据画像来训练用户挖掘模型。

本实施例中，第一用户画像数据可以包括：性别、年龄段、行业、人生阶段、长期兴趣等多项标签。每项标签可以包含若干枚举值，枚举值以0-100分数表示，表示置信程度。例如性别标签可以包括两个枚举值，分别表示男和女，而这两个枚举值的大小用于表示智信程度即可信度，假如用户A的性别标签的枚举值为男，且大小为90，则说明用户A为男性的可能性是百分之90。用户挖掘模型的本质是一种分类算法，将待筛选用户的用户画像数据输入至训练好的用户挖掘模型后，用户挖掘模型会输出评估结果，根据该评估结果可以确定是否对该待筛选用户采取拉新措施。由于分类算法仅支持数值向量型，因而无论作为训练样本的第一用户画像数据，还是将来用于分类的待筛选用户的用户画像数据，在输入至数据挖掘模型之前，先对用户画像数据进行编码，在一可选的实现方式中，可以使用常见的哑变量编码方法，将用户画像数据中各个标签的枚举值展开成多个取值为0-100的特征。

在本实施例的一个可选实现方式中，如图2所示，所述步骤S102，即根据所述第一用户的第一身份数据以及第二系统平台确定所述第一用户的第一用户画像数据的步骤，进一步包括以下步骤S201-S203：

在步骤S201中，根据所述第一身份数据获取在所述第二系统平台中与所述第一用户相关联的第二用户；

在步骤S202中，获取所述第二用户在所述第二系统平台中的第二用户画像数据；

在步骤S203中，将所述第二用户画像数据设置为第一用户画像数据。

在该可选的实现方式中，根据第一用户的第一身份数据从第二系统平台获取第一用户画像数据时，通过第一身份数据获取与第一用户相关联的第二用户，该关联关系可以是预先设置的，例如通过其他方式很大概率上能够确认第一用户与第二用户为同一个用户的情况下，可以设置第一用户和第二用户有关联关系；该关联关系还可以是直接通过第一用户的第一身份数据和第二用户的第二身份数据是否相同或者相关来确定，例如在第一身份数据和第二身份数据相同的情况下，可以认为第一用户与第二用户有关联关系。第一身份数据和第二身份数据可以包括用户id、手机号码、邮箱等能够唯一确定用户身份的数据。例如，第一用户的第一身份数据与第二用户的第二身份数据完全相同，则可以认为第一用户与第二用户相关联，第二用户在第二系统平台中的第二用户画像数据可以作为第一用户的第一用户画像数据。再例如，第一用户的第一身份数据与第二用户的第二身份数据虽然不同，但是具有预先设置的对应关系，例如同一用户的两个手机号码、同一用户的手机号码与邮箱之间的对应关系等等，则可以认为第一用户与第二用户相关联。通过这种方式，可以方便地从第二系统平台中获取第一用户的用户画像数据，能够提高效率。

在本实施例的一个可选实现方式中，如图3所示，所述步骤S202，即获取所述第二用户在所述第二系统平台中的第二用户画像数据的步骤，进一步包括以下步骤S301-S302：

在步骤S301中，确定与所述第二用户相关联的所述第一用户在所述第一系统平台的注册时间；

在步骤S302中，确定在所述第二系统平台中所述第二用户在所述注册时间之前的最新第二用户画像数据。

在该可选的实现方式中，在确定了与第一用户相关联的第二用户以后，在第二系统平台中，确定第二用户的用户画像数据时，由于一个用户可能存在不同日期的多条用户画像数据，这种情况下可以选择距离该用户激活日期(即第一用户注册时间)最近并且早于激活日期的用户画像数据，而非仅仅是使用最新的用户画像数据。这是因为数据挖掘模型的目的是基于用户在第一系统平台注册前的相关数据来确定该用户是否是潜在用户，即是否有必要对该用户采取拉新措施。在利用数据挖掘模型判断一用户的潜在价值时，使用的都是该用户未在第一系统平台注册前的用户画像数据，因此，在训练数据挖掘模型时，也采用第一用户未在第一系统平台注册之前的第一用户画像数据来训练。如果使用最新的用户画像数据，由于该用户最新的用户画像数据(即与第一用户相关联的第二用户在第二系统平台中的用户画像数据)包含了该用户激活日期(即第一用户在第一系统平台中注册)之后的信息，数据挖掘模型如果基于这些最新的用户画像数据学习得到一个未来函数，进行评估时所用的用户画像数据由于不含未来信息，从而会对评估结果造成强烈的负面影响。

在本实施例的一个可选实现方式中，所述步骤S201，即根据所述第一身份数据获取在所述第二系统平台中与所述第一用户相关联的第二用户的步骤，进一步包括以下步骤：

在该可选的实现方式中，可以通过预先设置第一身份数据与第二身份数据的预设关系来确定第一用户和第二用户的关联关系。例如，第一身份数据和第二用户的第二身份数据如果完全相同，则可以认为第一用户与第二用户相关联；再例如，第一身份数据和第二身份数据为同一用户的不同身份数据，如同一用户的两个手机号码、邮箱等，或者同一用户的手机号码和邮箱等等。通过这种方式，能够更大范围、且更加准确的确定第一用户和第二用户之间的关联关系。

在本实施例的一个可选实现方式中，获取所述第二系统平台中用户身份数据与所述第一用户的第一身份数据具有预设关系的第二用户的步骤，进一步包括以下步骤：

该实现方式中，通过判断第一用户和第二用户的用户身份数据是否相同来确定第一用户和第二用户是否相关联。通常情况下，一个用户的邮箱、手机号码等都能唯一确定用户身份，甚至同一个用户在不同线上平台使用的id也都是同一个，因此可以通过比较两个系统平台上第一用户和第二用户的身份数据是否相同来确定两者是否是同一个用户。通过这种方式，能够方便的确定同一用户的身份，且准确率较高。

在本实施例的一个可选实现方式中，所述步骤S103，即利用所述第一用户画像数据训练所述第一系统平台的用户挖掘模型的步骤，进一步包括以下步骤：

在该可选的实现方式中，二分类模型的训练过程中，训练样本数据通常有两种：正样本训练数据和负样本训练数据。那么在训练数据挖掘模型时，正样本训练数据输入至数据挖掘模型后，所得到的结果为是，而负样本训练数据输入至数据挖掘模型后，所得到的结果为否。而第一用户为第一系统平台用户中已注册的用户，因此数据挖掘模型对于第一用户的评估结果应该为是，因此第一用户画像数据可以作为正样本数据。在第一系统平台的冷启动阶段，由于没有拉新历史数据，因此无法获知负样本训练数据，而可以通过本实施例的上述方法从第二系统平台中获取第一用户的第一用户画像数据，将其作为正样本训练数据来训练数据挖掘模型。训练完成后，通过训练好的数据挖掘模型从待筛选用户集中筛选出一部分潜在用户后，对该部分潜在用户执行拉新措施，并将拉新后的结果(即成功转化成为第一系统平台的用户和没有成功的用户)记录下来，数据积累到一定程度后，可根据这些用户的数据(包括正样本训练数据和负样本训练数据)训练更加精准的数据挖掘模型，来以替代冷启动阶段训练得到的初步数据挖掘模型，从而实现模型的循环迭代优化。

在本实施例的一个可选实现方式中，所述方法进一步包括以下步骤：

在该可选的实现方式中，利用第一用户的第一用户画像数据训练得到数据挖掘模型后，可以采用该数据挖掘模型对待筛选用户进行评估，即通过将待筛选用户的用户画像数据输入至训练好的数据挖掘模型中，数据挖掘模型会输出一个评估结果，可以基于该评估结果用于确定该待筛选用户是否为潜在用户。如果该待筛选用户为潜在用户，则将其作为执行对象，执行预设的拉新处理方法。预设的拉新处理方法可以是预先设置的，如对执行对象发放代金券等促销手段的方法，具体根据第一系统平台的实际情况进行设置，在此不做限制。

下面通过一个实例举例说明数据挖掘模型的训练过程以及后续的用户预测过程。

第一系统平台在冷启动阶段，由于仅有正样本训练数据即第一用户的用户画像数据，用户挖掘模型的训练属于单样本数据拟合问题。因而可以使用均方误差等拟合优度指标作为优化目标函数。数据挖掘模型选择时可以在保证模型复杂度不过高的情况下选择最优均方误差的分布曲线进行拟合。本实施例选择使用多维高斯分布进行拟合，即第一系统平台的数据挖掘模型的目标函数如下表示：

其中，D为特征维数，即在训练过程中，D为正样本训练数据即第一用户画像数据的特征维数；P(x|μ,Σ)表示数据挖掘模型的目标函数；x表示样本训练数据即第一用户画像数据；μ表示上述多维高斯分布的均值向量；Σ表示上述多维高斯分布的协方差矩阵。

在训练过程中，使用最大似然法优化上述目标函数，如下表示：

其中，x_i为正样本训练数据中的第i个特征，N为正样本训练数据的数量。

通过将正样本训练数据即第一用户的用户画像数据输入至上述公式(2)，求解得到数据挖掘模型的参数，即μ，Σ。

在预测过程中，数据挖掘模型训练好之后，利用该训练好的数据挖掘模型计算待筛选用户的模型分数，根据模型分数确定待筛选用户的潜在价值。

在一实施例中，考虑到多维正态分布为对称且单峰的分布形式，因而可以使用马氏距离计算待筛选用户的拟合分数，即样本距离中心的距离作为样本是否服从该分布的判据。模型分数的计算公式如下表示：

其中，x为待筛选用户的用户画像数据。通过将待筛选用户的用户画像数据和在训练过程中求解得到的数据挖掘模型参数μ，Σ输入至上述公式(3)得到待筛选用户的模型分数。

下述为本公开装置实施例，可以用于执行本公开方法实施例。

图4示出根据本公开一实施方式的用户挖掘装置的结构框图，该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图4所示，所述用户挖掘装置包括获取模块401、第一确定模块402和训练模块403：

获取模块401，被配置为获取第一用户的第一身份数据，所述第一用户为在预设时间周期内在第一系统平台中新注册的用户；

第一确定模块402，被配置为为根据所述第一用户的第一身份数据以及第二系统平台确定所述第一用户的第一用户画像数据；

训练模块403，被配置为利用所述第一用户画像数据训练所述第一系统平台的用户挖掘模型；

预测模块404，被配置为利用训练好的所述用户挖掘模型对待筛选用户进行评估；

第二确定模块405，被配置为根据评估结果确定所述待筛选用户是否为潜在用户。

在本实施例的一个可选实现方式中，如图5所示，所述第一确定模块402包括：

第一获取子模块501，被配置为根据所述第一身份数据获取在所述第二系统平台中与所述第一用户相关联的第二用户；

第二获取子模块502，被配置为获取所述第二用户在所述第二系统平台中的第二用户画像数据；

第一设置子模块503，被配置为将所述第二用户画像数据设置为第一用户画像数据。

在本实施例的一个可选实现方式中，如图6所示，所述获取模块502包括：

第一确定子模块601，被配置为确定与所述第二用户相关联的所述第一用户在所述第一系统平台的注册时间；

第二确定子模块602，被配置为确定在所述第二系统平台中所述第二用户在所述注册时间之前的最新第二用户画像数据。

在本实施例的一个可选实现方式中，所述第一获取子模块501包括：

在本实施例的一个可选实现方式中，所述第三获取子模块包括：

在本实施例的一个可选实现方式中，所述训练模块403包括：

在本实施例的一个可选实现方式中，所述装置进一步还包括执行模块：

图7是适于用来实现根据本公开实施方式的用户挖掘方法的电子设备的结构示意图。

如图7所示，电子设备700包括中央处理单元(CPU)701，其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行上述图1所示的实施方式中的各种处理。在RAM703中，还存储有电子设备700操作所需的各种程序和数据。CPU701、ROM702以及RAM703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

以下部件连接至I/O接口705：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。

特别地，根据本公开的实施方式，上文参考图1描述的方法可以被实现为计算机软件程序。例如，本公开的实施方式包括一种计算机程序产品，其包括有形地包含在及其可读介质上的计算机程序，所述计算机程序包含用于执行图1的用户挖掘方法的程序代码。在这样的实施方式中，该计算机程序可以通过通信部分709从网络上被下载和安装，和/或从可拆卸介质711被安装。

附图中的流程图和框图，图示了按照本公开各种实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，路程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施方式中所涉及到的单元或模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。

作为另一方面，本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施方式中所述装置中所包含的计算机可读存储介质；也可以是单独存在，未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序，所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

A1、一种用户挖掘方法，包括：获取第一用户的第一身份数据，所述第一用户为在预设时间周期内在第一系统平台中新注册的用户；根据所述第一用户的第一身份数据以及第二系统平台确定所述第一用户的第一用户画像数据；利用所述第一用户画像数据训练所述第一系统平台的用户挖掘模型；利用训练好的所述用户挖掘模型对待筛选用户进行评估；根据评估结果确定所述待筛选用户是否为潜在用户。A2、根据A1所述的用户挖掘方法，根据所述第一用户的第一身份数据以及第二系统平台确定所述第一用户的第一用户画像数据，包括：根据所述第一身份数据获取在所述第二系统平台中与所述第一用户相关联的第二用户；获取所述第二用户在所述第二系统平台中的第二用户画像数据；将所述第二用户画像数据设置为第一用户画像数据。A3、根据A1所述的用户挖掘方法，获取所述第二用户在所述第二系统平台中的第二用户画像数据，包括：确定与所述第二用户相关联的所述第一用户在所述第一系统平台的注册时间；确定在所述第二系统平台中所述第二用户在所述注册时间之前的最新第二用户画像数据。A4、根据A2所述的用户挖掘方法，根据所述第一身份数据获取在所述第二系统平台中与所述第一用户相关联的第二用户，包括：获取所述第二系统平台中用户身份数据与所述第一用户的第一身份数据具有预设关系的第二用户。A5、根据A4所述的用户挖掘方法，获取所述第二系统平台中用户身份数据与所述第一用户的第一身份数据具有预设关系的第二用户，包括：获取所述第二系统平台中用户身份数据与所述第一用户的第一身份数据相同的第二用户。A6、根据A1所述的用户挖掘方法，利用所述第一用户画像数据训练所述第一系统平台的用户挖掘模型，包括：将所述第一用户画像数据设置为正样本数据训练所述用户挖掘模型。A7、根据A1所述的用户挖掘方法，还包括：在所述待筛选用户为潜在用户时，对所述待筛选用户执行预设的拉新处理方法。

B8、一种用户挖掘装置，包括：获取模块，被配置为获取第一用户的第一身份数据，所述第一用户为在预设时间周期内在第一系统平台中新注册的用户；第一确定模块，被配置为根据所述第一用户的第一身份数据以及第二系统平台确定所述第一用户的第一用户画像数据；训练模块，被配置为利用所述第一用户画像数据训练所述第一系统平台的用户挖掘模型；预测模块，被配置为利用训练好的所述用户挖掘模型对待筛选用户进行评估；第二确定模块，被配置为根据评估结果确定所述待筛选用户是否为潜在用户。B9、根据B8所述的用户挖掘装置，所述第一确定模块包括：第一获取子模块，被配置为根据所述第一身份数据获取在所述第二系统平台中与所述第一用户相关联的第二用户；第二获取子模块，被配置为获取所述第二用户在所述第二系统平台中的第二用户画像数据；第一设置子模块，被配置为将所述第二用户画像数据设置为第一用户画像数据。B10、根据B8所述的用户挖掘装置，所述获取模块包括：第一确定子模块，被配置为确定与所述第二用户相关联的所述第一用户在所述第一系统平台的注册时间；第二确定子模块，被配置为确定在所述第二系统平台中所述第二用户在所述注册时间之前的最新第二用户画像数据。B11、根据B9所述的用户挖掘方法，所述第一获取子模块包括：第三获取子模块，被配置为获取所述第二系统平台中用户身份数据与所述第一用户的第一身份数据具有预设关系的第二用户。B12、根据B11所述的用户挖掘装置，所述第三获取子模块包括：第四获取子模块，被配置为获取所述第二系统平台中用户身份数据与所述第一用户的第一身份数据相同的第二用户。B13、根据B8所述的用户挖掘装置，其特征在于，所述训练模块包括：第二设置子模块，被配置为将所述第一用户画像数据设置为正样本数据训练所述用户挖掘模型。B14、根据B8所述的用户挖掘装置，还包括：执行模块，被配置为在所述待筛选用户为潜在用户时，对所述待筛选用户执行预设的拉新处理方法。

C15、一种电子设备，包括存储器和处理器；其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现A1-A7任一项所述的方法步骤。

D16、一种计算机可读存储介质，其上存储有计算机指令，该计算机指令被处理器执行时实现A1-A7任一项所述的方法步骤。

Claims

1.一种用户挖掘方法，其特征在于，包括：

利用训练好的所述用户挖掘模型对待筛选用户进行评估；

根据评估结果确定所述待筛选用户是否为潜在用户。

2.根据权利要求1所述的用户挖掘方法，其特征在于，根据所述第一用户的第一身份数据以及第二系统平台确定所述第一用户的第一用户画像数据，包括：

将所述第二用户画像数据设置为第一用户画像数据。

3.根据权利要求1所述的用户挖掘方法，其特征在于，获取所述第二用户在所述第二系统平台中的第二用户画像数据，包括：

4.根据权利要求2所述的用户挖掘方法，其特征在于，根据所述第一身份数据获取在所述第二系统平台中与所述第一用户相关联的第二用户，包括：

5.根据权利要求4所述的用户挖掘方法，其特征在于，获取所述第二系统平台中用户身份数据与所述第一用户的第一身份数据具有预设关系的第二用户，包括：

6.根据权利要求1所述的用户挖掘方法，其特征在于，利用所述第一用户画像数据训练所述第一系统平台的用户挖掘模型，包括：

7.根据权利要求1所述的用户挖掘方法，其特征在于，还包括：

8.一种用户挖掘装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括存储器和处理器；其中，

所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现权利要求1-7任一项所述的方法步骤。

10.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，该计算机指令被处理器执行时实现权利要求1-7任一项所述的方法步骤。