CN109919649A

CN109919649A - 一种目标用户确定方法、装置、计算设备及介质

Info

Publication number: CN109919649A
Application number: CN201910027227.8A
Authority: CN
Inventors: 张小艳
Original assignee: Beijing Tengyun World Technology Co Ltd
Current assignee: Beijing Tengyun World Technology Co Ltd
Priority date: 2019-01-11
Filing date: 2019-01-11
Publication date: 2019-06-21

Abstract

本发明公开了一种目标用户确定方法、装置、计算设备及介质，该方法包括：接收用户数据集合和预设事件，用户数据集合包括多条用户数据；将各用户数据分别输入到目标用户预测模型中进行处理，以预测出用户数据对应用户发生预设事件的概率；根据各用户发生预设事件的概率，确定预设事件对应的目标用户。

Description

一种目标用户确定方法、装置、计算设备及介质

技术领域

本发明涉及互联网及大数据处理技术领域，特别涉及一种目标用户确定方法、装置、计算设备及介质

背景技术

随着互联网技术和硬件技术的不断发展，越来越多的人开始使用如智能手机、平板电脑等移动终端设备。同时，移动互联网的广泛普及促使移动应用的发展更加迅猛，用户通过使用移动终端上安装的各类移动应用，进行阅读、聊天、购物等各项活动。

对于应用的开发者或提供者而言，用户在使用应用的过程中，可能因进行了某个或某些操作而受到重点关注，比如用户购买了一款热销商品，此时可以将购买该热销商品的用户视为种子人群，基于该种子人群找出潜在的相似人群作为目标用户，以便实现精准用户定位，进而有助于应用的各方面调整乃至改进。

目前，目标用户确定方法多数是采用单机版的lookalike人群扩散算法，具有不同的实现方式，但通常对原始数据的特征及属性有较高要求，导致计算复杂度较高，而单机的计算能力和处理数据的规模有限。此外，虽然已提出分布式的lookalike人群扩散算法，但多基于Spark实现，可Spark库是一个一体化的重量级的库，运行速度仍然不够快。因此，需要一种新的目标用户确定方法来优化上述处理过程。

发明内容

为此，本发明提供一种目标用户确定方案，以力图解决或者至少缓解上面存在的问题。

根据本发明的一个方面，提供一种目标用户确定方法，该方法包括如下步骤：首先，接收用户数据集合和预设事件，用户数据集合包括多条用户数据；将各用户数据分别输入到目标用户预测模型中进行处理，以预测出用户数据对应用户发生预设事件的概率；根据各用户发生预设事件的概率，确定预设事件对应的目标用户。

可选地，在根据本发明的目标用户确定方法中，用户数据包括用户标识、事件特征和位置特征。

可选地，在根据本发明的目标用户确定方法中，用户数据集合通过如下方式预先生成：从应用日志中提取用户标识、事件数据和位置数据；根据事件数据和位置数据，确定各用户标识对应的事件特征和位置特征；将用户标识、事件特征和位置特征相应关联，以生成用户数据；汇集各用户数据，以形成用户数据总集，将用户数据总集划分成多个用户数据集合。

可选地，在根据本发明的目标用户确定方法中，事件特征和位置特征以独热码的编码方式表示。

可选地，在根据本发明的目标用户确定方法中，将各用户数据分别输入到目标用户预测模型中进行处理，以预测出用户数据对应用户发生预设事件的概率，包括：将各用户数据分别输入到目标用户预测模型中进行处理，以输出用户数据对应用户发生相应事件的概率；从用户数据对应用户发生相应事件的概率中，选出用户数据对应用户发生预设事件的概率。

可选地，在根据本发明的目标用户确定方法中，根据各用户发生预设事件的概率，确定预设事件对应的目标用户，包括：按照从大到小的顺序，对各用户发生预设事件的概率进行排序；获取前预设数量个概率对应用户数据中的用户标识；将获取到的用户标识对应的用户，作为预设事件的目标用户。

可选地，在根据本发明的目标用户确定方法中，在获取前预设数量个概率对应用户数据中的用户标识之前，包括：从排序后各概率对应用户数据中的用户标识中，剔除黑名单中的用户标识。

可选地，在根据本发明的目标用户确定方法中，目标用户预测模型包括极值梯度提升模型。

可选地，在根据本发明的目标用户确定方法中，还包括：将预设事件对应的目标用户上报至管理服务器，以便管理服务器汇总预设事件对应的全部目标用户。

根据本发明的又一个方面，提供一种目标用户确定装置，该装置包括接收模块、预测模块和确定模块。其中，接收模块适于接收用户数据集合和预设事件，用户数据集合包括多条用户数据；预测模块适于将各用户数据分别输入到目标用户预测模型中进行处理，以预测出用户数据对应用户发生预设事件的概率；确定模块适于根据各用户发生预设事件的概率，确定预设事件对应的目标用户。

可选地，在根据本发明的目标用户确定装置中，用户数据包括用户标识、事件特征和位置特征。

可选地，在根据本发明的目标用户确定装置中，用户数据集合通过如下方式预先生成：从应用日志中提取用户标识、事件数据和位置数据；根据事件数据和位置数据，确定各用户标识对应的事件特征和位置特征；将用户标识、事件特征和位置特征相应关联，以生成用户数据；汇集各用户数据，以形成用户数据总集，将用户数据总集划分成多个用户数据集合。

可选地，在根据本发明的目标用户确定装置中，事件特征和位置特征以独热码的编码方式表示。

可选地，在根据本发明的目标用户确定装置中，预测模块进一步适于将各用户数据分别输入到目标用户预测模型中进行处理，以输出用户数据对应用户发生相应事件的概率；从用户数据对应用户发生相应事件的概率中，选出用户数据对应用户发生预设事件的概率。

可选地，在根据本发明的目标用户确定装置中，确定模块进一步适于按照从大到小的顺序，对各用户发生预设事件的概率进行排序；获取前预设数量个概率对应用户数据中的用户标识；将获取到的用户标识对应的用户，作为预设事件的目标用户。

可选地，在根据本发明的目标用户确定装置中，确定模块进一步适于从排序后各概率对应用户数据中的用户标识中，剔除黑名单中的用户标识。

可选地，在根据本发明的目标用户确定装置中，目标用户预测模型包括极值梯度提升模型。

可选地，在根据本发明的目标用户确定装置中，确定模块还适于将预设事件对应的目标用户上报至管理服务器，以便管理服务器汇总预设事件对应的全部目标用户。

根据本发明的又一个方面，提供一种计算设备，包括一个或多个处理器、存储器以及一个或多个程序，其中一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序包括用于执行根据本发明的目标用户确定方法的指令。

根据本发明的又一个方面，还提供一种存储一个或多个程序的计算机可读存储介质，一个或多个程序包括指令，指令当由计算设备执行时，使得计算设备执行根据本发明的目标用户确定方法。

根据本发明的目标用户确定方案，基于目标用户预测模型对用户数据进行预测处理，以确定各用户发生预设事件的概率，将前预设数量个概率对应用户标识关联的用户，作为预设事件的目标用户。其中，用户数据以事件特征和位置特征为人群扩散基于的特征，控制了确定目标用户时所需要的特征种类，可对应用内的任何事件进行人群扩大，并可设置扩大人群的黑名单，以避免无效用户或恶意用户被标记为目标用户。此外，通过向管理服务器上报目标用户，以便管理服务器进行汇总计算，减轻了单机运行的负担，加快了运行速度。

附图说明

为了实现上述以及相关目的，本文结合下面的描述和附图来描述某些说明性方面，这些方面指示了可以实践本文所公开的原理的各种方式，并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述，本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开，相同的附图标记通常指代相同的部件或元素。

图1示出了根据本发明的一个实施例的目标用户确定系统100的示意图；

图2示出了根据本发明的一个实施例的计算设备200的结构框图；

图3示出了根据本发明的一个实施例的目标用户确定方法300的示意图；以及

图4示出了根据本发明的一个实施例的目标用户确定装置400的流程图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了根据本发明的一个实施例的目标用户确定系统100的示意图。应当指出，图1中的目标用户确定系统100仅是示例性的，在具体的实际情况中，目标用户确定系统100中可以有不同数量的服务器和管理服务器，对此本发明并不限制。

如图1所示，目标用户确定系统100包括管理服务器110、服务器120、服务器130和服务器140，管理服务器110可通过向服务器120、服务器130和服务器140下发相应的指令或数据，以指示各服务器执行对应的任务，并在任务完成后将结果上报至管理服务器110。

根据本发明的一个实施例，目标用户确定系统100为基于Dask库实现的轻量级集群，用于确定应用中预设事件对应的目标用户。在该实施方式中，服务器120、服务器130和服务器140中驻留有目标用户确定装置(图中未示出)，此时，管理服务器110可通过向服务器120、服务器130和服务器140分别发送用户数据集合和预设事件，指示服务器120、服务器130和服务器140通过各自的目标用户确定装置来确定预设事件对应的目标用户，并将目标用户上报至管理服务器110，以便管理服务器110汇总预设事件对应的全部目标用户。

下面，对目标用户确定的过程进行示例性说明。管理服务器110会预先对应用日志进行处理，以获取多条用户数据，汇集各用户数据形成用户数据总集，根据当前系统中其他服务器的数量、负载情况和运行效率，将用户数据总计划分成相应数量的用户数据集合，将各用户数据集合和预设事件下发至对应的服务器。

根据本发明的一个实施例，管理服务器110共生成了3个用户数据集合，分别记为用户数据集合A、用户数据集合B和用户数据集合C，每个用户数据集合中包括1000条用户数据，用户数据包括用户标识、事件特征和位置特征，并确定预设事件为事件D。管理服务器110将用户数据集合A和事件D发送给服务器120，将用户数据集合B和事件D发送给服务器130，将用户数据集合C和事件D发送给服务器140。

为便于描述，以下以服务器120为例说明确定目标用户的具体过程。服务器120通过目标用户确定装置，接收用户数据集合A和事件D，将用户数据集合A中的1000条用户数据，分别输入到目标用户预测模型中进行处理，以预测出用户数据对应用户发生事件D的概率，根据各用户发生事件D的概率，确定事件D对应的目标用户。

考虑到目标用户在质量上和数量上的要求，最终在确定事件D对应的目标用户时，通常先按照从大到小的顺序，对各用户发生事件D的概率进行排序，再获取前预设数量个概率对应用户数据中的用户标识，将获取到的用户标识对应的用户，作为事件D的目标用户。优选地，预设数量为100，则服务器120确定了100个用户为目标用户，并将这100个用户上报至管理服务器110。当然，同时还可以将目标用户发生事件D的概率一起上报至管理服务器110。

同样地，对于服务器130和服务器140而言，也分别确定了100个用户为目标用户并上报至管理服务器110。此时，管理服务器110将汇总各服务器上报的共计300个用户，从而得到事件D对应的全部目标用户。此外，由于各服务器在上报目标用户时，可同时上报目标用户发生事件D的概率，则管理服务器110能够进一步对目标用户进行筛选，例如，从汇总出的300个用户中优选出发生事件D的概率较大的前100个用户。

根据本发明的一个实施例，上述目标用户确定系统100中的服务器120、服务器130和/或服务器140，可以通过如下所述的计算设备200来实现。图2示出了根据本发明一个实施例的计算设备200的结构框图。

如图2所示，在基本的配置202中，计算设备200典型地包括系统存储器206和一个或者多个处理器204。存储器总线208可以用于在处理器204和系统存储器206之间的通信。

取决于期望的配置，处理器204可以是任何类型的处理，包括但不限于：微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器204可以包括诸如一级高速缓存210和二级高速缓存212之类的一个或者多个级别的高速缓存、处理器核心214和寄存器216。示例的处理器核心214可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器218可以与处理器204一起使用，或者在一些实现中，存储器控制器218可以是处理器204的一个内部部分。

取决于期望的配置，系统存储器206可以是任意类型的存储器，包括但不限于：易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器206可以包括操作系统220、一个或者多个程序222以及数据224。在一些实施方式中，程序222可以布置为在操作系统上由一个或多个处理器204利用数据224执行指令。

计算设备200还可以包括有助于从各种接口设备(例如，输出设备242、外设接口244和通信设备246)到基本配置202经由总线/接口控制器230的通信的接口总线240。示例的输出设备242包括图形处理单元248和音频处理单元250。它们可以被配置为有助于经由一个或者多个A/V端口252与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口244可以包括串行接口控制器254和并行接口控制器256，它们可以被配置为有助于经由一个或者多个I/O端口258和诸如输入设备(例如，键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备246可以包括网络控制器260，其可以被布置为便于经由一个或者多个通信端口264与一个或者多个其他计算设备262通过网络通信链路的通信。

网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块，并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号，它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例，通信介质可以包括诸如有线网络或者专线网络之类的有线介质，以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。

计算设备200可以实现为服务器，例如文件服务器、数据库服务器、应用程序服务器和WEB服务器等，也可以实现为小尺寸便携(或者移动)电子设备的一部分，这些电子设备可以是诸如蜂窝电话、个人数字助理(PDA)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。计算设备200还可以实现为包括桌面计算机和笔记本计算机配置的个人计算机。

在一些实施例中，计算设备200被实现为服务器120、服务器130和/或服务器140，并被配置为执行根据本发明的目标用户确定方法300。其中，计算设备200的程序222中包含执行根据本发明的目标用户确定方法300多条程序指令，而数据224还可以存储目标用户确定系统100的配置信息等。

图3示出了根据本发明的一个实施例的目标用户确定方法300的流程图。如图3所示，方法300始于步骤S310。在步骤S310中，接收用户数据集合和预设事件，用户数据集合包括多条用户数据。其中，用户数据包括用户标识、事件特征和位置特征，事件特征和位置特征以独热码的编码方式表示。

根据本发明的一个实施例，服务器120接收到管理服务器110发送的用户数据集合和预设事件，用户数据集合通过如下方式预先生成。首先，管理服务器110从应用日志中提取用户标识、事件数据和位置数据，位置数据包括GPS(Global Positioning System，全球定位系统)位置信息和IP(Internet Protocol，网际协议)位置信息。

其中，事件数据包括事件名称和对应的事件属性，事件属性用于表征相应事件的当前状态，如该事件是否发生。GPS位置信息包括GPS地理位置和GPS位置属性，GPS地理位置精确到县(区)级，GPS位置属性用于表征用户是否出现在对应的GPS地理位置，IP位置信息包括IP地理位置和IP位置属性，IP地理位置精确到市(区)级，IP位置属性用于表征用户是否出现在对应的IP地理位置。

在该实施方式中，应用日志为某一应用自2018年3月10日至2018年3月16日的原始日志，包含有7天的应用数据。从应用日志中提取到了12362个用户标识，以及与每个用户标识关联的事件数据和位置数据。其中，事件数据包括39个事件名称，表明共有39种不同的事件，以及与各事件名称关联事件对应的事件属性，即39个事件属性，位置数据包括1959个GPS位置信息和14个IP位置信息。

以下为用户标识、事件数据和位置数据所包含部分内容的一个示例：

用户标识：h02a95283ddeafed701c86431f48d1163

事件数据：click_save_bindCard，event_true

位置数据：中国-江苏省-常州市-武进区，gps_true

中国-江苏省-常州市，ip_ture

如上所示，用户标识为“h02a95283ddeafed701c86431f48d1163”，事件名称为“click_save_bindCard”，表示“点击保存绑定的银行卡”，事件属性为“event_true”，表示已点击，即发生了该事件，GPS地理位置为“中国-江苏省-常州市-武进区”，GPS位置属性为gps_true”，表示用户出现在中国江苏省常州市武进区，IP位置为“中国-江苏省-常州市”，IP属性为ip_true”，表示用户出现在中国江苏省常州市。

接下来，根据事件数据和位置数据，确定各用户标识对应的事件特征和位置特征。根据本发明的一个实施例，可通过独热码的编码方式，分别对事件数据和位置数据进行编码处理，以生成对应的事件特征和位置特征。在对位置数据进行独热码的编码处理时，先要将位置数据中的GPS位置信息和IP位置信息进行统一，即以精确度更高的GPS地理位置为基准，将GPS位置信息和IP位置信息进行合并，从而以地理位置信息作为GPS地理位置和IP地理位置的合并结果，以地理位置属性作为GPS位置属性和IP位置属性的合并结果。在该实施方式中，最终获取到1962个地理位置信息和与各地理位置信息对应的地理位置属性。

具体来说，在根据独热码对事件数据和位置数据进行编码时，对一个事件而言，基于该事件的事件属性，以1表示用户标识对应的用户发生了该事件，以0表示用户标识对应的用户未发生该事件，对一个地理位置信息而言，基于该地理位置信息对应的地理位置属性，以1表示用户标识对应的用户出现在相应的地理位置，以0表示用户标识对应的用户没有出现在相应的地理位置。

以下为用户标识、事件特征和位置特征所包含部分内容的一个示例：

用户标识：h02a95283ddeafed701c86431f48d1163

事件特征：click_save_bindCard，1

位置特征：中国-江苏省-常州市-武进区，1

如上所示，事件特征中的“1”表示用户标识“h02a95283ddeafed701c86431f48d1163”对应的用户发生了click_save_bindCard事件，位置特征中的“1”表示用户标识“h02a95283ddeafed701c86431f48d1163”对应的用户出现在中国江苏省常州市武进区。

此时，将用户标识、事件特征和位置特征相应关联，以生成用户数据。根据本发明的一个实施例，一条用户数据包括一个用户标识、以及与该用户标识关联的事件特征和位置特征，事件特征包括39个事件名称，以及与各事件名称关联事件对应的特征值，取值为1或0，1表示事件发生，0表示事件未发生，位置特征包括1962个地理位置信息，以及与各地理位置信息对应的特征值，取值为1或0，1表示该用户标识对应的用户出现在相应的地理位置，0表示该用户标识对应的用户没有出现在相应的地理位置。在该实施方式中，对于提取到的12362个用户标识，共计生成了12362条用户数据。

最后，汇集各用户数据，以形成用户数据总集，将用户数据总集划分成多个用户数据集合。根据本发明的一个实施例，将这12362条用户数据汇集起来，形成了用户数据总集。考虑到集群中有服务器120、服务器130和服务器140三台服务器可用于目标用户确定，则根据各服务器的当前运行情况、负载能力等，将该用户数据总集划分成3个用户数据集合，记为用户数据集合S1、用户数据集合S2和用户数据集合S3，分别包含2563条、4177条和5622条用户数据，并确定好预定事件为to_page_register(前往注册页面)事件。

此后，管理服务器110将用户数据集合S1和to_page_register事件、用户数据集合S2和to_page_register事件、用户数据集合S3和to_page_register事件分别发送至服务器120、服务器130和服务器140，以指示服务器120、服务器130和服务器140确定目标用户。

随后，进入步骤S320，服务器120在接收到用户数据集合S1和to_page_register事件后，获取到2563条用户数据，将各用户数据分别输入到目标用户预测模型中进行处理，以预测出用户数据对应用户发生预设事件的概率。根据本发明的一个实施例，可通过如下方式将各用户数据分别输入到目标用户预测模型中进行处理，以预测出用户数据对应用户发生预设事件的概率。首先，将各用户数据分别输入到目标用户预测模型中进行处理，以输出用户数据对应用户发生相应事件的概率，然后，从用户数据对应用户发生相应事件的概率中，选出用户数据对应用户发生预设事件的概率。其中，目标用户预测模型包括极值梯度提升模型。

极值梯度提升模型又称XGBoost(eXtreme Gradient Boosting)模型，可用于分类处理，此处采用的是Dask分布式的XGBoost模型。当然，在应用XGBoost模型时，需要预先对其进行训练，所使用的训练数据采用如上生成用户数据的方式即可。考虑到XGBoost模型为现有成熟技术，其构建和训练过程对于了解本发明方案的技术人员来说是可以容易想到的，并且也在本发明的保护范围之内，此处不予以赘述。

在该实施方式中，将一条用户数据输入到目标用户预测模型中后，目标用户预测模型将输出该用户数据对应用户发生39种事件的概率，如输出发生appLunch_idfa_success(iOS系统开启应用成功)事件、launch_app(开启应用)事件、to_page_register事件的概率等。此后，从该用户数据对应用户发生39种事件的概率中，选出用户数据对应用户发生预设事件，即to_page_register事件的概率。

应注意的是，由于某些事件在发生上存在普遍性，比如launch_app事件，基本上用户在使用应用时，都需要开启应用，则launch_app事件可以认为是一个必然发生的事件，那么预测launch_app事件的目标用户时，会出现结果不准确的情况，因此，预设事件的选定也要考虑是否合理，而不应该随意确定预设事件，否则预测的目标人群不仅可能出现偏差，甚至这一预测处理都没有实际意义。

此外，目标用户预测模型不仅可以基于如上XGBoost模型来实现，还可以通过GBDT(Gradient Boosting Decision Tree，梯度提升决策树)算法等模型实现。对使用哪种算法或模型构建目标用户预测模型，本发明亦不限制，可根据实际应用场景、网络训练情况、系统配置和性能要求等进行选择，并对所选定方式中的模型构建过程和相应参数适当调整，这些对于了解本发明方案的技术人员来说是可以容易想到的，并且也在本发明的保护范围之内，此处不予以赘述。

最后，根据各用户发生预设事件的概率，确定预设事件对应的目标用户。根据本发明的一个实施例，可通过如下方式根据各用户发生预设事件的概率，确定预设事件对应的目标用户。首先，按照从大到小的顺序，对各用户发生预设事件的概率进行排序，获取前预设数量个概率对应用户数据中的用户标识，再将获取到的用户标识对应的用户，作为预设事件的目标用户。优选地，预设数量为150。需要说明的是，通常情况下，预设数量的值与接收到的用户数据集合所包括用户数据的数量有关，用户数据的数量越多，预设数量的值也相应越大。

在该实施方式中，先按照从大到小的顺序，对2563个用户发生to_page_register事件的概率进行排序，获取前150个概率对应用户数据中的用户标识，将获取到的用户标识对应的用户，作为to_page_register事件的目标用户。

由于某些用户可能是恶意注册或长期空置账号的持有者，根据本发明的一个实施例，管理服务器110在向服务器120下发用户数据集合和预设事件时，还可以同时发送黑名单，黑名单中包括有恶意注册或长期空置账号的用户的用户标识。在该实施方式中，在获取前预设数量个概率对应用户数据中的用户标识之前，从排序后各概率对应用户数据中的用户标识中，剔除黑名单中的用户标识，以提升目标用户的质量。

在确定好目标用户后，根据本发明的一个实施例，服务器120将预设事件对应的目标用户上报至管理服务器110，以便管理服务器110汇总预设事件对应的全部目标用户。在该实施方式中，服务器120将to_page_register事件对应的150个用户作为目标用户，上报至管理服务器110。而服务器130和服务器140分别上报了240和320个用户，则管理服务器110汇总后得到710个用户作为全部目标用户。

进一步地，服务器120还可将预设事件对应的目标用户的用户标识，以及发生预设事件的概率上报至管理服务器110，以便管理服务器110汇总预设事件对应的全部目标用户。

图4示出了根据本发明的一个实施例的目标用户确定装置400的示意图。如图4所示，目标用户确定装置400包括接收模块410、预测模块420和确定模块430。

接收模块410适于接收用户数据集合和预设事件，用户数据集合包括多条用户数据。

根据本发明的一个实施例，用户数据包括用户标识、事件特征和位置特征，事件特征和位置特征以独热码的编码方式表示。

在该实施方式中，用户数据集合通过如下方式预先生成：从应用日志中提取用户标识、事件数据和位置数据，根据事件数据和位置数据，确定各用户标识对应的事件特征和位置特征，将用户标识、事件特征和位置特征相应关联，以生成用户数据，汇集各用户数据，以形成用户数据总集，将用户数据总集划分成多个用户数据集合。

预测模块420适于将各用户数据分别输入到目标用户预测模型中进行处理，以预测出用户数据对应用户发生预设事件的概率。

根据本发明的一个实施例，预测模块420进一步适于将各用户数据分别输入到目标用户预测模型中进行处理，以输出用户数据对应用户发生相应事件的概率，从用户数据对应用户发生相应事件的概率中，选出用户数据对应用户发生预设事件的概率。

在该实施方式中，目标用户预测模型包括极值梯度提升模型。

确定模块430适于根据各用户发生预设事件的概率，确定预设事件对应的目标用户。

根据本发明的一个实施例，确定模块430进一步适于按照从大到小的顺序，对各用户发生预设事件的概率进行排序，获取前预设数量个概率对应用户数据中的用户标识，将获取到的用户标识对应的用户，作为预设事件的目标用户。

在该实施方式中，确定模块430进一步适于从排序后各概率对应用户数据中的用户标识中，剔除黑名单中的用户标识。

根据本发明的一个实施例，确定模块430还适于将预设事件对应的目标用户上报至管理服务器，以便管理服务器汇总预设事件对应的全部目标用户。

关于目标用户确定的具体步骤以及实施例，在基于图3的描述中已经详细公开，此处不再赘述。

关于现有的目标用户确定方法，单机版的实现方式对原始数据的特征及属性有较高要求，导致计算复杂度较高，运行效率较低，而分布式的实现方式多基于重量级的库实现，虽然提升了处理数据的规模，但运行速度仍然不够快。根据本发明实施例的目标用户确定方案，基于目标用户预测模型对用户数据进行预测处理，以确定各用户发生预设事件的概率，将前预设数量个概率对应用户标识关联的用户，作为预设事件的目标用户。其中，用户数据以事件特征和位置特征为人群扩散基于的特征，控制了确定目标用户时所需要的特征种类，可对应用内的任何事件进行人群扩大，并可设置扩大人群的黑名单，以避免无效用户或恶意用户被标记为目标用户。此外，可以预先部署轻量级的集群，在管理服务器的调控下，协同其他服务器分布式执行上述目标用户确定方案，最后再向管理服务器上报各自的目标用户，进而加快运行速度，提升可处理的数据规模和计算能力。

A8.如A1-7中任一项所述的方法，其中，所述目标用户预测模型包括极值梯度提升模型。

A9.如A1-8中任一项所述的方法，其中，还包括：

将所述预设事件对应的目标用户上报至管理服务器，以便所述管理服务器汇总所述预设事件对应的全部目标用户。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组间可以布置在如该实施例中所描述的设备中，或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组间组合成一个模块或单元或组间，以及此外可以把它们分成多个子模块或子单元或子组间。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

此外，所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此，具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外，装置实施例的在此所述的元素是如下装置的例子：该装置用于实施由为了实施该发明的目的的元素所执行的功能。

这里描述的各种技术可结合硬件或软件，或者它们的组合一起实现。从而，本发明的方法和设备，或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介，例如软盘、CD-ROM、硬盘驱动器或者其它任意机器可读的存储介质中的程序代码(即指令)的形式，其中当程序被载入诸如计算机之类的机器，并被所述机器执行时，所述机器变成实践本发明的设备。

在程序代码在可编程计算机上执行的情况下，计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件)，至少一个输入装置，和至少一个输出装置。其中，存储器被配置用于存储程序代码；处理器被配置用于根据该存储器中存储的所述程序代码中的指令，执行本发明的目标用户确定方法。

以示例而非限制的方式，计算机可读介质包括计算机存储介质和通信介质。计算机可读介质包括计算机存储介质和通信介质。计算机存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据，并且包括任何信息传递介质。以上的任一种的组合也包括在计算机可读介质的范围之内。

如在此所使用的那样，除非另行规定，使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例，并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种目标用户确定方法，包括：

接收用户数据集合和预设事件，所述用户数据集合包括多条用户数据；

将各用户数据分别输入到目标用户预测模型中进行处理，以预测出所述用户数据对应用户发生预设事件的概率；

根据各用户发生预设事件的概率，确定所述预设事件对应的目标用户。

2.如权利要求1所述的方法，其中，所述用户数据包括用户标识、事件特征和位置特征。

3.如权利要求1或2所述的方法，其中，所述用户数据集合通过如下方式预先生成：

从应用日志中提取用户标识、事件数据和位置数据；

根据所述事件数据和位置数据，确定各用户标识对应的事件特征和位置特征；

将所述用户标识、事件特征和位置特征相应关联，以生成用户数据；

汇集各用户数据，以形成用户数据总集，将所述用户数据总集划分成多个用户数据集合。

4.如权利要求2或3所述的方法，其中，所述事件特征和位置特征以独热码的编码方式表示。

5.如权利要求1-4中任一项所述的方法，其中，所述将各用户数据分别输入到目标用户预测模型中进行处理，以预测出所述用户数据对应用户发生预设事件的概率，包括：

将各用户数据分别输入到目标用户预测模型中进行处理，以输出所述用户数据对应用户发生相应事件的概率；

从所述用户数据对应用户发生相应事件的概率中，选出所述用户数据对应用户发生预设事件的概率。

6.如权利要求1-5中任一项所述的方法，其中，所述根据各用户发生预设事件的概率，确定所述预设事件对应的目标用户，包括：

按照从大到小的顺序，对各用户发生预设事件的概率进行排序；

获取前预设数量个概率对应用户数据中的用户标识；

将获取到的用户标识对应的用户，作为所述预设事件的目标用户。

7.如权利要求6所述的方法，其中，在所述获取前预设数量个概率对应用户数据中的用户标识之前，包括：

从排序后各概率对应用户数据中的用户标识中，剔除黑名单中的用户标识。

8.一种目标用户确定装置，包括：

接收模块，适于接收用户数据集合和预设事件，所述用户数据集合包括多条用户数据；

预测模块，适于将各用户数据分别输入到目标用户预测模型中进行处理，以预测出所述用户数据对应用户发生预设事件的概率；

确定模块，适于根据各用户发生预设事件的概率，确定所述预设事件对应的目标用户。

9.一种计算设备，包括：

一个或多个处理器；

存储器；以及

一个或多个程序，其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求1-7所述的方法中的任一方法的指令。

10.一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行根据权利要求1-7所述的方法中的任一方法。