CN109255656B

CN109255656B - 一种基于复合模型的用户扩展方法、装置及系统

Info

Publication number: CN109255656B
Application number: CN201811010430.6A
Authority: CN
Inventors: 周涛; 李百川; 陈第
Original assignee: Youmi Technology Co ltd
Current assignee: Youmi Technology Co ltd
Priority date: 2018-08-31
Filing date: 2018-08-31
Publication date: 2020-09-18
Anticipated expiration: 2038-08-31
Also published as: CN109255656A

Abstract

本申请公开了一种基于复合模型的用户扩展方法、装置及系统，方法包括：获取多个种子用户包，其中，多个种子用户包包括：目标种子用户包，以及与目标种子用户包相关的至少一个种子用户包；基于除目标种子用户包以外的种子用户包得到复合lookalike模型，基于复合lookalike模型预测得到目标种子用户包的扩展用户。本申请能够充分利用目标种子用户包的多个相关种子用户包的信息来训练得到复合lookalike模型，通过训练得到的复合lookalike模型能够显著提高扩展得到的用户的精确度。

Description

一种基于复合模型的用户扩展方法、装置及系统

技术领域

本申请涉及数据处理技术领域，特别涉及一种基于复合模型的用户扩展方法、装置及系统。

背景技术

随着社会的发展，为了满足用户日益增长的需求，各行各业不断地推出新的业务。例如，游戏开发商不定期的推出新的游戏。通常商家在推出一个新业务时，可以获取一小部分已经使用新业务的用户名单，这些用户被称之为“种子用户”。目前，可以通过“种子用户”对新业务的需求人群进行扩展，扩展出的用户可以作为新业务投放的依据。因此，如何进一步有效的提高扩展得到的用户的精确度尤为重要。

发明内容

有鉴于此，本申请的目的在于提供一种基于复合模型的用户扩展方法，能够充分利用多个相关的种子用户，通过复合相似用户扩展算法，提高扩展得到的用户的精确度。

本申请提供了一种基于复合模型的用户扩展方法，包括：

获取多个种子用户包，其中，多个种子用户包包括：目标种子用户包，以及与所述目标种子用户包相关的至少一个种子用户包；

基于所述除所述目标种子用户包以外的种子用户包得到复合lookalike模型；

基于所述复合lookalike模型预测得到所述目标种子用户包的扩展用户。

优选地，所述基于所述除所述目标种子用户包以外的种子用户包得到复合lookalike模型包括：

分别计算除所述目标种子用户包以外的种子用户包的基本扩展用户；

获取所述目标种子用户包、非种子用户以及所述基本扩展用户的特征，形成复合特征；

基于所述复合特征训练得到复合lookalike模型。

优选地，所述分别计算除所述目标种子用户包以外的种子用户包的基本扩展用户包括：

获取除所述目标种子用户包以外的种子用户包的特征，以及所述非种子用户的特征；

基于所述除所述目标种子用户包以外的种子用户包的特征和所述非种子用户的特征，训练得到基本lookalike模型；

基于所述基本lookalike模型，预测每个所述非种子用户作为所述除所述目标种子用户包以外的种子用户包的扩展用户的第一概率值；

将所述第一概率值满足第一预设条件的非种子用户确定为所述除所述目标种子用户包以外的种子用户包的基本扩展用户。

优选地，所述基于所述除所述目标种子用户包以外的种子用户包的特征和所述非种子用户的特征，训练得到基本lookalike模型包括：

基于所述除所述目标种子用户包以外的种子用户包的特征和所述非种子用户的特征，采用分类算法、聚类算法或相似度算法训练得到基本lookalike模型。

优选地，所述基本扩展用户的特征包括：所述基本扩展用户的第一概率值。

优选地，所述基于所述复合lookalike模型预测得到所述目标种子用户包的扩展用户包括：

基于所述复合lookalike模型，预测所述每个所述非种子用户作为所述目标种子用户包的扩展用户的第二概率值；

将所述第二概率值满足第二预设条件的非种子用户确定为所述目标种子用户包的扩展用户。

优选地，所述基于所述复合特征训练得到复合lookalike模型包括：

基于所述复合特征，采用分类算法、聚类算法或相似度算法训练得到复合lookalike模型。

一种基于复合模型的用户扩展装置，包括：

获取模块，用于获取多个种子用户包，其中，多个种子用户包包括：目标种子用户包，以及与所述目标种子用户包相关的至少一个种子用户包；

处理模块，用于基于所述除所述目标种子用户包以外的种子用户包得到复合lookalike模型；

预测模块，用于基于所述复合lookalike模型预测得到所述目标种子用户包的扩展用户。

优选地，所述处理模块包括：

计算单元，用于分别计算除所述目标种子用户包以外的种子用户包的基本扩展用户；

生成单元，用于获取所述目标种子用户包、非种子用户以及所述基本扩展用户的特征，形成复合特征；

训练单元，用于基于所述复合特征训练得到复合lookalike模型。

优选地，所述计算单元包括：

特征获取子单元，用于获取除所述目标种子用户包以外的种子用户包的特征，以及所述非种子用户的特征；

模型训练子单元，用于基于所述除所述目标种子用户包以外的种子用户包的特征和所述非种子用户的特征，训练得到基本lookalike模型；

预测子单元，用于基于所述基本lookalike模型，预测每个所述非种子用户作为所述除所述目标种子用户包以外的种子用户包的扩展用户的第一概率值；

确定子单元，用于将所述第一概率值满足第一预设条件的非种子用户确定为所述除所述目标种子用户包以外的种子用户包的基本扩展用户。

优选地，所述预测模块包括：

预测单元，用于基于所述复合lookalike模型，预测所述每个所述非种子用户作为所述目标种子用户包的扩展用户的第二概率值；

确定单元，用于将所述第二概率值满足第二预设条件的非种子用户确定为所述目标种子用户包的扩展用户。

一种基于复合模型的用户扩展系统，包括：

存储设备，用于存储多个种子用户包以及非种子用户，其中，多个种子用户包包括：目标种子用户包，以及与所述目标种子用户包相关的至少一个种子用户包；

如上述所述的用户扩展装置；

营销平台，用于对所述用户扩展装置确定的所述目标种子用户包的扩展用户推出营销业务。

一种电子设备，包括：

存储器，用于存储应用程序及应用程序运行所产生的数据；

处理器，用于执行所述应用程序，以实现功能：

由以上方案可知，本申请提供的一种基于复合模型的用户扩展方法，通过获取多个种子用户包，并通过除目标种子用户包以外的其他种子用户包得到复合lookalike模型，最后根据得到的复合lookalike模型预测得到目标种子用户包的扩展用户。相对于现有技术只根据单个种子用户的信息对种子用户进行扩展，本申请能够充分利用目标种子用户包的多个相关种子用户包的信息来训练得到复合lookalike模型，通过训练得到的复合lookalike模型能够显著提高扩展得到的用户的精确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例1提供的一种基于复合模型的用户扩展方法的实现流程图；

图2为本申请实施例1的部分流程图；

图3为本申请实施例1的另一部分流程图；

图4为本申请实施例1的另一部分流程图；

图5为本申请实施例2提供的一种基于复合模型的用户扩展装置的结构示意图；

图6为本申请实施例2的部分结构示意图；

图7为本申请实施例2的部分结构示意图；

图8为本申请实施例2的部分结构示意图；

图9为本申请实施例3提供的一种基于复合模型的用户扩展系统的结构示意图；

图10为本申请实施例4提供的一种电子设备的结构示意图；

图11示出了本申请实施例提供的一种存储介质的结构示意图；

图12示出了本申请实施例提供的一种处理器的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

如图1所示，为本申请公开的一种基于复合模型的用户扩展方法实施例1的流程图，所述方法可以包括以下步骤：

步骤S101、获取多个种子用户包，其中，多个种子用户包包括：目标种子用户包，以及与目标种子用户包相关的至少一个种子用户包；

当需要对用户进行扩展时，首先获取多个相关的种子用户包，如，种子用户包S1、种子用户包S2、种子用户包S3，…种子用户包Sn。其中，每个种子用户包中一般包括多个种子用户，多个相关的种子用户包可以是涉及同一行业/领域，或相近行业/领域的用户。例如，种子用户包S1、种子用户包S2、种子用户包S3，…种子用户包Sn，可以是涉及游戏行业不同游戏的用户。另外，在获取多个相关的种子用户包时，多个相关的种子用户包可以由广告商提供，或者从历史的广告投放记录中查找得到。

在判断种子用户包之间是否相关时，可以对正样本用户(种子用户包)和负样本用户(随机采样的非种子用户)看过的视频标题做分词，去除停用词后，每个用户计算每个词的词频，计算出每个词的条件概率特征。然后，对每个用户，将所有词映射成对应的条件概率，取最大的K个(如20)和最小的K个，排序后作为该用户的特征，输入到随机森林模型(random forest模型)训练，然后用训练好的random forest模型分类出相关种子用户包。例如，将预测值大于0.5的用户归类为相关种子用户包。

需要说明的是，在获取的多个相关的种子用户包中，其中有一个种子用户包为目标种子用户包，即需要对其进行用户扩展的种子用户包。为了提高扩展得到的用户的精确度，获取的多个相关的种子用户包中，除目标种子用户包以外，至少还有一个与目标种子用户包相关的种子用户包。

步骤S102、基于除目标种子用户包以外的种子用户包得到复合lookalike模型；

例如，获取的多个种子用户包包括：种子用户包S1、种子用户包S2、种子用户包S3，…种子用户包Sn，其中，将种子用户包S1确定为目标种子用户包，然后根据种子用户包S2、种子用户包S3，…种子用户包Sn得到复合lookalike模型。其中，复合lookalike模型中包含了除目标种子用户包以外的种子用户包的特征。

步骤S103、基于复合lookalike模型预测得到目标种子用户包的扩展用户。

最后，通过训练得到的复合lookalike模型，在非种子用户中预测得到目标种子用户包的扩展用户。

综上所述，在上述实施例中，通过获取多个种子用户包，并基于除目标种子用户包以外的其他种子用户包得到复合lookalike模型，最后根据训练得到的复合lookalike模型预测得到目标种子用户包的扩展用户。相对于现有技术只根据单个种子用户的信息对种子用户包进行扩展，本实施例能够充分利用目标种子用户包的多个相关种子用户包的信息来训练得到复合lookalike模型，通过训练得到的复合lookalike模型能够显著提高扩展得到的用户的精确度。

在一种实现方式中，上述实施例1中的步骤S102具体可以通过以下步骤实现，如图2所示：

步骤S201、分别计算除目标种子用户包以外的种子用户包的基本扩展用户；

当获取到多个相关的种子用户包后，进一步对除目标种子用户包以外的种子用户包进行计算，得到除目标种子用户包以外的种子用户包的基本扩展用户。

例如，获取的多个种子用户包包括：种子用户包S1、种子用户包S2、种子用户包S3，…种子用户包Sn，其中，将种子用户包S1确定为目标种子用户包，然后分别计算出种子用户包S2、种子用户包S3，…种子用户包Sn的基本扩展用户。

步骤S202、获取目标种子用户包、非种子用户以及基本扩展用户的特征，形成复合特征；

然后从DMP(Data Management Platform，数据管理平台)中分别获取目标种子用户包的特征、非种子用户的特征，以及基本扩展用户的特征。其中，用户的特征包括：用户标签数据，用户行为数据等。将获取到的目标种子用户包的特征、非种子用户的特征，以及基本扩展用户的特征组合成复合特征。其中，需要说明的是，非种子用户即为与种子用户不相关的用户。

步骤S203、基于复合特征训练得到复合lookalike模型。

然后根据复合特征，使用分类算法、聚类算法或相似度算法等进行模型训练，训练得到复合lookalike模型。

在一种实现方式中，上述实施例1中的步骤S201具体可以通过以下步骤实现，如图3所示：

步骤S301、获取除目标种子用户包以外的种子用户包的特征，以及非种子用户的特征；

例如，多个相关的种子用户包包括：种子用户包S1、种子用户包S2、种子用户包S3，…种子用户包Sn，其中，种子用户包S1为目标种子用户包。当需要计算种子用户包S2的基本扩展用户时，首先获取种子用户包S2的用户特征，以及非种子用户的特征。其中，在获取种子用户包S2的用户特征，以及非种子用户的特征时，可以从DMP中获取。

步骤S302、基于除目标种子用户包以外的种子用户包的特征和非种子用户的特征，训练得到基本lookalike模型；

然后根据获取到的种子用户包S2的特征，以及非种子用户的特征，使用分类算法、聚类算法或相似度算法等进行模型训练，训练得到基本lookalike模型。

步骤S303、基于基本lookalike模型，预测每个非种子用户作为除目标种子用户包以外的种子用户包的扩展用户的第一概率值；

然后通过训练得到的基本lookalike模型，分别预测每个非种子用户作为种子用户包S2的基本扩展用户的概率值。其中，概率值越高表明与种子用户包S2越相关。

步骤S304、将第一概率值满足第一预设条件的非种子用户确定为除目标种子用户包以外的种子用户包的基本扩展用户。

最后，将通过基本lookalike模型预测出的概率值满足预设条件的非种子用户确定为种子用户包S2的基本扩展用户。例如，将概率值大于80％的非种子用户确定为种子用户包S2的基本扩展用户。

需要说明的是，确定出的除目标种子用户包以外的种子用户包的基本扩展用户的概率值，可作为基本扩展用户的特征用于训练得到复合lookalike模型。

同理，在计算种子用户包S3，…种子用户包Sn的基本扩展用户时，采用的是上述相同的原理，在此不再赘述。

在一种实现方式中，上述实施例1中的步骤S103具体可以通过以下步骤实现，如图4所示：

步骤S401、基于复合lookalike模型，预测每个非种子用户作为目标种子用户包的扩展用户的第二概率值；

在基于复合lookalike模型预测得到目标种子用户包的扩展用户时，根据训练得到的复合lookalike模型，分别对每个非种子用户进行预测，通过预测得到每个非种子用户作为目标种子用户包的扩展用户的概率值。

S402、将第二概率值满足第二预设条件的非种子用户确定为目标种子用户包的扩展用户。

然后，将通过复合lookalike模型预测出的概率值满足预设条件的非种子用户确定为目标种子用户包S1的扩展用户。例如，将概率值大于80％的非种子用户确定为目标种子用户包S1的扩展用户。

需要说明的是，在实际的应用过程中，可以通过扩展实际需求来灵活的调整第二预设条件，以实现灵活的调整目标种子用户包S1的扩展用户的数量。

参考图5，为本申请实施例2提供的一种基于复合模型的用户扩展装置的结构示意图，该装置可以设置在能够代码进行操作的设备中，如具有应用开发功能的计算机中。

在本实施例中，该装置可以包括以下结构：

获取模块501，获取多个种子用户包，其中，多个种子用户包包括：目标种子用户包，以及与目标种子用户包相关的至少一个种子用户包；

处理模块502，用于基于除目标种子用户包以外的种子用户包得到复合lookalike模型；

预测模块503，用于基于所述复合lookalike模型预测得到所述目标种子用户包的扩展用户。

在一种实现方式中，如图6所示，上述实施例2中的处理模块具体可以包括：

计算单元601，用于分别计算除目标种子用户包以外的种子用户包的基本扩展用户；

生成单元602，用于获取目标种子用户包、非种子用户以及基本扩展用户的特征，形成复合特征；

训练单元603，用于基于复合特征训练得到复合lookalike模型。

在一种实现方式中，如图7所示，上述实施例2中的计算单元具体可以包括：

特征获取子单元701，用于获取除目标种子用户包以外的种子用户包的特征，以及非种子用户的特征；

模型训练子单元702，用于基于除目标种子用户包以外的种子用户包的特征和非种子用户的特征，训练得到基本lookalike模型；

预测子单元703，基于基本lookalike模型，预测每个非种子用户作为除目标种子用户包以外的种子用户包的扩展用户的第一概率值；

确定子单元704，用于将第一概率值满足第一预设条件的非种子用户确定为除目标种子用户包以外的种子用户包的基本扩展用户。

在一种实现方式中，如图8所示，上述实施例2中的预测模块具体可以包括：

预测单元801，用于基于复合lookalike模型，预测每个非种子用户作为目标种子用户包的扩展用户的第二概率值；

确定单元802，用于将第二概率值满足第二预设条件的非种子用户确定为目标种子用户包的扩展用户。

如图9所示，为本申请实施例3提供的一种基于复合模型的用户扩展系统的结构示意图，该系统可以包括：存储设备901、用户扩展装置902以及营销平台903；其中：

存储设备901，用于存储多个种子用户包以及非种子用户，其中，多个种子用户包包括：目标种子用户包，以及与目标种子用户包相关的至少一个种子用户包；

用户扩展装置902，用于确定出目标种子用户包的扩展用户；

营销平台903，用于对用户扩展装置902确定的目标种子用户包的扩展用户推出营销业务。

需要说明的，在上述实施例中，用户扩展装置确定出目标种子用户包的扩展用户的过程如实施例1所述，在此不再赘述。

参考图10，为本申请实施例4提供的一种电子设备的结构示意图，该电子设备可以为部署有应用开发环境具有应用开发功能的服务器等设备。

在本实施例中，该电子设备可以包括有：

存储器1001，用于存储应用程序及应用程序运行所产生的数据。

其中，存储器1001可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

处理器1002，用于执行所述应用程序，以实现功能：获取多个种子用户包，其中，多个种子用户包包括：目标种子用户包，以及与目标种子用户包相关的至少一个种子用户包；基于除目标种子用户包以外的种子用户包得到复合lookalike模型，基于复合lookalike模型预测得到目标种子用户包的扩展用户。

具体的，处理器1002中包含内核，由内核去存储器中调取相应的程序单元，内核可以设置一个或多个，通过调整内核参数来获取多个种子用户包，其中，多个种子用户包包括：目标种子用户包，以及与目标种子用户包相关的至少一个种子用户包；基于除目标种子用户包以外的种子用户包得到复合lookalike模型，基于复合lookalike模型预测得到目标种子用户包的扩展用户。

由以上方案可知，本申请实施例4提供的一种电子设备，通过获取多个种子用户包，并根据除目标种子用户包以外的其他种子用户包得到复合lookalike模型，最后根据得到的复合lookalike模型预测得到目标种子用户包的扩展用户。相对于现有技术只根据单个种子用户的信息对种子用户进行扩展，本申请能够充分利用目标种子用户包的多个相关种子用户包的信息来训练得到复合lookalike模型，通过训练得到的复合lookalike模型能够显著提高扩展得到的用户的精确度。

本发明实施例提供了一种存储介质，如图11中所示，该存储介质处于设备上，如图10所示的电子设备上，而该存储介质上存储有程序，该程序运行时控制该存储介质所在的设备执行图1至图4中所描述或展示的用户扩展方法。

本发明实施例提供了一种处理器，如图12中所示，该处理器用于运行程序，该程序可以为图11所示的存储介质中存储的程序，由此，处理器通过运行程序执行图1至图4中所描述或展示的用户方法。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序代码：获取多个种子用户包，其中，多个种子用户包包括：目标种子用户包，以及与目标种子用户包相关的至少一个种子用户包；根据除目标种子用户包以外的种子用户包得到复合lookalike模型，基于复合lookalike模型预测得到目标种子用户包的扩展用户。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本发明所提供的一种用户扩展方法、装置及系统进行了详细介绍，对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于复合模型的用户扩展方法，其特征在于，包括：

基于除所述目标种子用户包以外的种子用户包得到复合lookalike模型；

基于所述复合lookalike模型预测得到所述目标种子用户包的扩展用户；

其中，所述基于除所述目标种子用户包以外的种子用户包得到复合lookalike模型包括：

获取所述目标种子用户包、非种子用户以及所述基本扩展用户的特征，形成复合特征，其中，所述基本扩展用户的特征包括所述基本扩展用户的第一概率值；

基于所述复合特征训练得到复合lookalike模型；

其中，所述分别计算除所述目标种子用户包以外的种子用户包的基本扩展用户包括：

2.根据权利要求1所述的方法，其特征在于，所述基于除所述目标种子用户包以外的种子用户包的特征和所述非种子用户的特征，训练得到基本lookalike模型包括：

3.根据权利要求1所述的方法，其特征在于，所述基于所述复合lookalike模型预测得到所述目标种子用户包的扩展用户包括：

4.根据权利要求1所述的方法，其特征在于，所述基于所述复合特征训练得到复合lookalike模型包括：

5.一种基于复合模型的用户扩展装置，其特征在于，包括：

处理模块，用于基于除所述目标种子用户包以外的种子用户包得到复合lookalike模型；

预测模块，用于基于所述复合lookalike模型预测得到所述目标种子用户包的扩展用户；

其中，所述处理模块包括：

训练单元，用于基于所述复合特征训练得到复合lookalike模型；

其中，所述计算单元包括：

6.根据权利要求5所述的装置，其特征在于，所述预测模块包括：

7.一种基于复合模型的用户扩展系统，其特征在于，包括：

如权利要求5-6任意一项所述的用户扩展装置；

8.一种电子设备，其特征在于，包括：

存储器，用于存储应用程序及应用程序运行所产生的数据；

处理器，用于执行所述应用程序，以实现功能：

基于所述复合特征训练得到复合lookalike模型；