CN110738529A

CN110738529A - 用户扩散方法、装置、可读存储介质及电子设备

Info

Publication number: CN110738529A
Application number: CN201911002597.2A
Authority: CN
Inventors: 黄楷; 梁新敏; 陈羲
Original assignee: Miaozhen Systems Information Technology Co Ltd
Current assignee: Miaozhen Information Technology Co Ltd; Miaozhen Systems Information Technology Co Ltd
Priority date: 2019-10-21
Filing date: 2019-10-21
Publication date: 2020-01-31

Abstract

本申请提供一种用户扩散方法、装置、可读存储介质及电子设备，通过用户行为信息构建训练样本进行最近邻模型训练，从而根据最近邻模型来进行用户扩散。具体地，所述方法包括：获取多个用户各自的用户行为信息；根据各个用户的用户行为信息确定种子用户和非种子用户；获取预设数量个用户的行为特征作为正样本和获取预设数量个用户的行为特征作为负样本；将正样本和负样本采用最近邻算法进行模型训练，获得最近邻模型；将该待扩散用户的行为特征输入最近邻模型，获得待扩散用户是否为种子用户的扩散结果。由于最近邻模型会根据用户周围预设距离范围内的用户的用户行为信息进行计算，因此，能够提高用户扩散结果的精确性。

Description

用户扩散方法、装置、可读存储介质及电子设备

技术领域

本申请涉及大数据处理领域，具体而言，涉及一种用户扩散方法、装置、可读存储介质及电子设备。

背景技术

推送广告是一种有效的吸引用户的方法，其中，定向推送广告由于具有转化率高的特点而受到青睐。现有技术中，一种定向推送广告的方法是采用分类算法来实现的，具体地，首先通过特定的标签或者规则确定一批精确的用户，并将这些用户作为种子用户。然后再将每个种子用户的行为特征作为正样本，其他用户的行为特征作为负样本，进行逻辑回归训练得到分类模型，最后再通过得到的分类模型来对待判断用户进行评判。

这种判断方式中，由于分类过程是通过对所有用户的行为特征来进行用户扩散的，因此，这种方式中，判断的结果主要是由所有用户的行为特征来确定的。而对于少部分用户存在的行为，对用户扩散过程中的影响所占的比重不大，因此，得到的用户扩散结果误差很大。

发明内容

为了至少克服现有技术中的上述不足，本申请的目的之一在于提供一种用户扩散方法，所述方法包括：

获取多个用户中每个用户的用户行为信息，所述用户行为信息包括所述用户是否已经购买目标商品的属性信息以及所述用户使用应用软件的操作信息；

根据所述用户行为信息确定种子用户和非种子用户，其中，所述种子用户为已经购买目标商品的用户，所述非种子用户为所述多个用户中除种子用户外的其他用户；

从所有所述种子用户中获取预设数量个用户的行为特征作为正样本，其中，所述行为特征包括用户操作应用软件的多个不同类型操作行为的数据；

从所有所述非种子用户中获取预设数量个用户的行为特征作为负样本；

将所述正样本和所述负样本采用最近邻算法进行模型训练，获得最近邻模型；

将任意一非种子用户作为待扩散用户，将该待扩散用户的行为特征输入所述最近邻模型，获得所述待扩散用户是否为种子用户的扩散结果。

可选地，所述从所有所述非种子用户中获取预设数量个用户的行为特征作为负样本的步骤包括：

采用随机下采样算法从所述非种子用户中获取预设数量个用户的行为特征作为负样本。

可选地，所述将任意一非种子用户作为待扩散用户，将该待扩散用户的行为特征输入所述最近邻模型，获得所述待扩散用户是否为种子用户的扩散结果的步骤包括：

获取待扩散用户的行为特征以及训练用户集中各个用户的行为特征，所述训练用户集为所述正样本以及所述负样本对应的用户的集合；

针对训练用户集中任意一用户，根据该任意一用户的行为特征计算所述待扩散用户与该任意一用户之间的距离；

从所述训练用户集中获取与所述待扩散用户距离最近的预设数量个用户；

判断所述预设数量个用户中，种子用户的数量是否多于非种子用户的数量；

如果种子用户的数量多于非种子用户的数量，则判断该用户为种子用户；

如果种子用户的数量小于或等于非种子用户的数量，则判断该用户为非种子用户。

可选地，所述方法还包括：

根据所述多个用户中扩散后的种子用户和非种子用户重新执行从所有所述种子用户中获取预设数量个用户的行为特征作为正样本预设扩散次数次。

可选地，所述方法还包括：

根据各个非种子用户的扩散结果获取扩散得到的新的种子用户；

向新的种子用户推送目标商品的广告。

本申请的另一目的在于提供一种用户扩散装置，所述装置包括：

信息获取模块，用于获取多个用户中每个用户的用户行为信息，所述用户行为信息包括所述用户是否已经购买目标商品的属性信息以及所述用户使用应用软件的操作信息；

用户划分模块，用户根据所述用户行为信息确定种子用户和非种子用户，其中，所述种子用户为已经购买目标商品的用户，所述非种子用户为所述多个用户中除种子用户外的其他用户；

样本构建模块，用于从所有所述种子用户中获取预设数量个用户的行为特征作为正样本，其中，所述行为特征包括用户操作应用软件的多个不同类型操作行为的数据，以及

模型训练模块，用于将所述正样本和所述负样本采用最近邻算法进行模型训练，获得最近邻模型；

用户扩散模块，用于将任意一非种子用户作为待扩散用户，将该待扩散用户的行为特征输入所述最近邻模型，获得所述待扩散用户是否为种子用户的扩散结果。

可选地，所述样本构建模块从所有所述非种子用户中获取预设数量个用户的行为特征作为负样本的步骤包括：

本申请的另一目的在于提供一种可读存储介质，所述可读存储介质存储有可执行程序，所述可执行程序被处理器执行时，实现如本申请任一项所述的方法。

本申请的另一目的在于提供一种电子设备，所述电子设备包括存储器和处理器，所述存储器与所述处理器通信连接，所述存储器中存储有可执行程序，所述处理器执行所述可执行程序时，实现如本申请任一项所述的方法。

相对于现有技术而言，本申请具有以下有益效果：

本发明实施例提供的用户扩散方法、装置、可读存储介质及电子设备，通过获取多个用户中每个用户的用户行为信息，并根据各个用户的用户行为信息确定出种子用户和非种子用户，获取多个用户中每个用户使用应用软件的多个不同类型操作行为的行为特征，构建出正样本和负样本来训练最近邻模型，然后采用最近邻模型来获取待扩散用户的扩散结果。由于最近邻模型在进行用户扩散的过程中，会根据其他用户中，用户的所有行为特征与待扩散用户更接近的用户的预先确定的类型是否为种子用户来对待扩散用户的是否为种子用户进行判断，从而得出更加准确的用户扩散结果。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是本申请实施例的提供的电子设备的结构示意框图；

图2是本申请实施例的提供的用户扩散方法的流程示意图一；

图3是本申请实施例的提供的用户扩散方法的流程示意图二；

图4是本申请实施例的提供的用户距离分布示意图；

图5是本申请实施例的提供的用户扩散方法的流程示意图三；

图6是本申请实施例的提供的用户扩散装置的框架示意框图。

图标：100-电子设备；110-用户扩散装置；111-信息获取模块；112-用户划分模块；113-样本构建模块；114-模型训练模块；115-用户扩散模块；120-存储器；130-处理器。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本申请的描述中，还需要说明的是，除非另有明确的规定和限定，术语“设置”、“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。

定向进行广告推送，能够进行用户召回或者吸引用户再次购买产品，也就是说，能够提高投放广告的转化率。进行广告定向推送时，分析已有的用户行为，从而选取特定的用户群体进行定向广告推送十分重要。

现有技术中，在进行广告定向推送时，通常采用以下两种方式，其中一种方式是采用社交网络的方式。社交网络方式进行用户扩散的流程为：首先通过标签或者规则等找出一批种子用户，例如购买过目标商品的用户，然后再利用该用户的好友等关系，将种子用户的标签传给社区中的好友，从而实现用户扩散。这种社交网络进行扩散的扩散方式，十分依赖社交网络情况。但是，若一个用户没有社交网络与他相连，则无法扩散。同时，面对需要向人群按照优先级推送广告时，或者有一定量人群扩散需求时，社交网络只能计算一次，计算出的结果数量固定，无法随着运营人员的扩散数量而变动。

现有技术中的另一种用户扩散方法是采用分类算法来实现的，具体地，首先通过特定的标签或者规则确定一批精确的用户，并将这些用户作为种子用户。然后再将每个种子用户的行为特征作为正样本，其他的用户的行为特征作为负样本，进行逻辑回归训练得到分类模型，最后再通过得到的分类模型来对待扩散用户进行评判。

分类算法中，由于分类过程是通过对所有用户的行为特征来进行用户扩散的，因此，这种方式中，判断的结果主要是由所有用户的行为特征来确定的。对于少部分用户存在的行为，对用户扩散过程中的影响所占的比重不大，因此，得到的用户扩散结果误差很大。

为了解决现有技术中的至少一个上述问题，本实施例提供了一种电子设备100。

请参见图1，图1是本申请实施例提供的电子设备100的结构示意框图，所述电子设备100包括用户扩散装置110，存储器120和处理器130，存储器120和处理器130相互之间直接或间接电性连接，用于实现数据交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述用户扩散装置110包括至少一个可以软件或固件(firmware)的形式存储于所述存储器120中或固化在所述电子设备100的操作系统(operating system，OS)中的软件功能模块。所述处理器130用于执行所述存储器120中存储的可执行模块，例如所述用户扩散装置110所包括的软件功能模块及计算机程序等。

本实施例还提供一种应用于上述电子设备100的用户扩散方法，请参见图2，图2是本实施例提供的用户扩散方法的流程示意图。为帮助理解以下结合步骤S110-步骤S160进行详细说明。

步骤S110，获取多个用户中每个用户的用户行为信息，所述用户行为信息包括所述用户是否已经购买目标商品的属性信息(表征用户是否已经购买目标商品)以及所述用户使用应用软件的操作信息。

步骤S120，根据所述用户行为信息确定种子用户和非种子用户，其中，所述种子用户为已经购买目标商品的用户，所述非种子用户为所述多个用户中除种子用户外的其他用户。

步骤S130，从所有所述种子用户中获取预设数量个用户的行为特征作为正样本，其中，所述行为特征包括用户操作应用软件的多个不同类型操作行为的数据。

步骤S140，从所有所述非种子用户中获取预设数量个用户的行为特征作为负样本。

步骤S150，将所述正样本和所述负样本采用最近邻算法进行模型训练，获得最近邻模型。

步骤S160，对待扩散用户进行用户扩散。

具体地，将任意一非种子用户作为待扩散用户，将该待扩散用户的行为特征输入所述最近邻模型，获得所述待扩散用户是否为种子用户的扩散结果。

本实施例中，由于最近邻模型是通过正样本和负样本训练而获得的，在采用最近邻模型对待扩散用户进行用户扩散时，便会根据行为特征计算出距离与用户最近的多个用户，从而据此进行用户扩散。由于扩散时，采用的是行为特征与用户的行为特征计算的距离最近的用户来进行用户扩散的，因此，可以均衡地考虑到多种行为(操作)中不同行为对用户扩散结果的影响，从而能够提高用户扩散的精确度。

在获得用户行为信息后，便可以根据已有的规则，确定出种子用户。本实施例中，可以按照一定的规则来对用户进行标记，确定种子用户。例如，根据用户的属性信息来确定种子用户，如果用户已经购买过目标商品，那么就标记为种子用户。其中，目标商品是待推送广告中所需要宣传或者推送的商品。

在获得用户行为信息后，便可以根据用户行为信息构建行为特征。以下举例对构建用户的行为特征进行详细解释。

用户A打开了小程序5次，4次点了商品a，3次点了商品b，对a加入购物车2次，对b购买1次。如果用户操作应用软件的多个不同类型操作行为(特征的维度)分别为打开小程序、点击商品a、点击商品b、a加入购物车、b加入购物车、购买a、购买b。则我们获得的行为特征为[5，4，3，2，0，0，1]。

本实施例中，用户行为信息可以从运行微信小程序、公众号的应用软件、用户安装的其他应用软件等的日志中获取。当然，也可以通过SDK来获取。用户的操作信息包括但不限于用户点击、访问、阅读、购买商品的日志。

可选地，本实施例中，步骤S140包括：采用随机下采样算法从所述非种子用户中获取预设数量个用户的行为特征作为负样本。

本实施例使用的随机下采样算法，也可以采用基于Tomek Links、NearMiss-(1&2&3)、One-sided Selection等的下采样算法。

本实施例中，用于通过下采样方法来获取负样本，由于用于训练最近邻模型的正样本和负样本的数量相同，因此，在最后的结果中，能够避免最近邻模型判别时样本倾斜导致都判别为非种子用户的情形，从而使得扩散结果更加精确。

可选地，本实施例中，步骤S160包括步骤S161-步骤S166，请参见图3。

步骤S161，获取待扩散用户的行为特征以及训练用户集中各个用户的行为特征，所述训练用户集为所述正样本以及所述负样本对应的用户的集合。

步骤S162，针对训练用户集中任意一用户，根据该任意一用户的行为特征计算所述待扩散用户与该任意一用户之间的距离。

步骤S163，从所述训练用户集中获取与所述待扩散用户距离最近的预设数量个用户。

步骤S164，判断所述预设数量个用户中，种子用户的数量是否多于非种子用户的数量。

步骤S165，如果种子用户的数量多于非种子用户的数量，则判断该用户为种子用户。

步骤S166，如果种子用户的数量小于或等于非种子用户的数量，则判断该用户为非种子用户。

本实施例用于计算待扩散用户与用于训练最近邻模型的各正样本、负样本对应的用户之间的距离，并从待扩散用户距离最近的预设数量个用户中的种子用户和非种子用户的比例来确定待扩散用户的类型(是否为种子用户)。

以下结合图4来详细讲解用户扩散的详细过程。

例如，训练最近邻模型的种子用户用黑色方框表示，训练最近邻模型的非种子用户用三角形表示，待扩散用户用圆圈表示。则当预设数量为3时，非种子用户多于种子用户，待扩散用户会被标识为非种子用户(待扩散用户的扩散结果不是种子用户)。当预设数量为5时，种子用户多于非种子用户，待扩散用户会被标识为种子用户((待扩散用户的扩散结果是种子用户))。

可选地，所述方法还包括：根据所述多个用户中扩散后的种子用户和非种子用户重新执行从所有所述种子用户中获取预设数量个用户的行为特征作为正样本预设扩散次数次。

本实施例用于在更新种子用户后，根据更新后的种子用户以及非种子用户重新确定正样本和负样本来训练最近邻模型。由于种子用户的数量会逐渐增多，因此，也可以实现对更多的用户进行扩散，从而使得用户扩散结果更广。由于可以根据设置的预设扩散次数(例如N)来进行用户扩散，因此，可以灵活地确定用户扩散的范围。

可选地，本实施例中，所述方法还包括步骤S210-步骤S220，请参见图5。

步骤S210，根据各个非种子用户的扩散结果获取扩散得到的新的种子用户。

步骤S220，向新的种子用户推送目标商品的广告。

本实施例用于根据用户扩散的结果推送目标商品的广告，由于扩散结果更加精确，因此，推送给用户的广告也更加精准。

本实施例中，步骤S210-步骤S220可以在每次步骤S160执行结束后执行，也可以在根据所述多个用户中扩散后的种子用户和非种子用户重新执行从所有所述种子用户中获取预设数量个用户的行为特征作为正样本预设扩散次数次之后执行。

请参见图6，本申请的实施例还提供一种用户扩散装置110，所述装置包括信息获取模块111、用户划分模块112、样本构建模块113、模型训练模块114和用户扩散模块115。所述用户扩散装置110包括一个可以软件或固件的形式存储于所述存储器120中或固化在所述图像处理设备的操作系统(operating system，OS)中的软件功能模块。

信息获取模块111，用于获取多个用户中每个用户的用户行为信息，所述用户行为信息包括所述用户是否已经购买目标商品的属性信息以及所述用户使用应用软件的操作信息。

本实施例中的信息获取模块111用于执行步骤S110，关于所述信息获取模块111的具体描述可参照对所述步骤S110的描述。

用户划分模块112，用户根据所述用户行为信息确定种子用户和非种子用户，其中，所述种子用户为已经购买目标商品的用户，所述非种子用户为所述多个用户中除种子用户外的其他用户。

本实施例中的用户划分模块112用于执行步骤S120，关于所述用户划分模块112的具体描述可参照对所述步骤S120的描述。

样本构建模块113，用于从所有所述种子用户中获取预设数量个用户的行为特征作为正样本，其中，所述行为特征包括用户操作应用软件的多个不同类型操作行为的数据，以及从所有所述非种子用户中获取预设数量个用户的行为特征作为负样。

本实施例中的样本构建模块113用于执行步骤S130-步骤S140，关于所述样本构建模块113的具体描述可参照对所述步骤S130-步骤S140的描述。

模型训练模块114，用于将所述正样本和所述负样本采用最近邻算法进行模型训练，获得最近邻模型。

本实施例中的模型训练模块114用于执行步骤S150，关于所述模型训练模块114的具体描述可参照对所述步骤S150的描述。

用户扩散模块115，用于将任意一非种子用户作为待扩散用户，将该待扩散用户的行为特征输入所述最近邻模型，获得所述待扩散用户是否为种子用户的扩散结果。

本实施例中的用户扩散模块115用于执行步骤S160，关于所述用户扩散模块115的具体描述可参照对所述步骤S160的描述。

可选地，所述样本构建模块113从所有所述非种子用户中获取预设数量个用户的行为特征作为负样本的步骤包括：采用随机下采样算法从所述非种子用户中获取预设数量个用户的行为特征作为负样本。

可选地，所述扩散模块用于将将任意一非种子用户作为待扩散用户，将该待扩散用户的行为特征输入所述最近邻模型，获得所述待扩散用户是否为种子用户的扩散结果的步骤包括：获取待扩散用户的行为特征以及训练用户集中各个用户的行为特征，所述训练用户集为所述正样本以及所述负样本对应的用户的集合。针对训练用户集中任意一用户，根据该任意一用户的行为特征计算所述待扩散用户与该任意一用户之间的距离。从所述训练用户集中获取与所述待扩散用户距离最近的预设数量个用户。判断所述预设数量个用户中，种子用户的数量是否多于非种子用户的数量。如果种子用户的数量多于非种子用户的数量，则判断该用户为种子用户。如果种子用户的数量小于或等于非种子用户的数量，则判断该用户为非种子用户。

本申请的另一目的在于提供一种可读存储介质，所述可读存储介质存储有可执行程序，所述可执行程序被处理器130执行时，实现如本申请任一项所述的方法。

以上所述，仅为本申请的各种实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种用户扩散方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述从所有所述非种子用户中获取预设数量个用户的行为特征作为负样本的步骤包括：

3.根据权利要求1所述的方法，其特征在于，所述将任意一非种子用户作为待扩散用户，将该待扩散用户的行为特征输入所述最近邻模型，获得所述待扩散用户是否为种子用户的扩散结果的步骤包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1-4任一项所述的方法，其特征在于，所述方法还包括：

向新的种子用户推送目标商品的广告。

6.一种用户扩散装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述样本构建模块从所有所述非种子用户中获取预设数量个用户的行为特征作为负样本的步骤包括：

8.根据权利要求6所述的装置，其特征在于，所述用户扩散模块具体用于：

9.一种可读存储介质，其特征在于，所述可读存储介质存储有可执行程序，所述可执行程序被处理器执行时，实现如权利要求1-5任一项所述的方法。

10.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，所述存储器与所述处理器通信连接，所述存储器中存储有可执行程序，所述处理器执行所述可执行程序时，实现如权利要求1-5任一项所述的方法。