CN113378043A

CN113378043A - 用户筛选的方法和装置

Info

Publication number: CN113378043A
Application number: CN202110620154.0A
Authority: CN
Inventors: 范聪
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2021-06-03
Filing date: 2021-06-03
Publication date: 2021-09-10

Abstract

本发明公开了用户筛选的方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括：从所有用户中筛选在目标品类中未触发预设操作行为的候选用户群；确定候选用户群中任一用户未来在目标品类中触发预设操作行为的第一概率、以及未来在目标品类中通过目标渠道触发预设操作行为的第二概率，根据第一概率和第二概率确定所述任一用户未来在目标品类中通过目标渠道触发预设操作行为的第三概率；从候选用户群中筛选第三概率满足预设条件的用户，得到与目标品类对应的目标用户群。该实施方式能够根据用户对目标品类的偏好以及用户对目标渠道的偏好筛选用户，保证筛选逻辑与筛选目标之间的匹配，提高用户筛选效果。

Description

用户筛选的方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种用户筛选的方法和装置。

背景技术

现有技术通常根据用户画像筛选用户。这种筛选逻辑未充分考虑用户的内在特征，数字化程度不高，筛选逻辑和筛选目标之间可能匹配，无法保证筛选效果。

发明内容

有鉴于此，本发明实施例提供一种用户筛选的方法和装置，能够根据用户对目标品类的偏好以及用户对目标渠道的偏好筛选用户，保证筛选逻辑与筛选目标之间的匹配，提高用户筛选效果。

为实现上述目的，根据本发明实施例的一个方面，提供了一种用户筛选的方法，包括：

从所有用户中筛选在目标品类中未触发预设操作行为的候选用户群；

确定所述候选用户群中任一用户未来在所述目标品类中触发所述预设操作行为的第一概率、以及未来在所述目标品类中通过目标渠道触发所述预设操作行为的第二概率，根据第一概率和第二概率确定所述任一用户未来在所述目标品类中通过目标渠道触发所述预设操作行为的第三概率；

从所述候选用户群中筛选第三概率满足预设条件的用户，得到与所述目标品类对应的目标用户群。

可选地，筛选在目标品类中不具有预设操作行为的候选用户群，包括：

获取所有用户的历史行为数据，根据所述历史行为数据筛选在目标品类中未触发所述预设操作行为的用户，得到所述候选用户群。

将所有用户划分为多个目标群体，获取所述目标群体内每个用户的历史行为数据；以在目标品类中触发所述预设操作行为作为共同特征，根据所述目标群体内每个用户的历史行为数据确定所述目标群体的TGI指数，筛选TGI指数大于预设TGI阈值的目标群体作为候选目标群体；

根据所述候选目标群体内每个用户的历史行为数据从所述候选目标群体中筛选在目标品类中未触发所述预设操作行为的用户，得到所述候选用户群。

获取多个历史时段内所有用户的历史行为数据，根据每个历史时段内的历史行为数据确定所述用户在对应历史时段内对所述目标品类的偏好值；

按照时间衰减方式累加所述用户在各个历史时段内对所述目标品类的偏好值得到用户对所述目标品类的偏好指标，筛选偏好指标大于设定阈值的用户得到候选用户集合；

根据所述候选用户集合中每个用户的历史行为数据从所述候选用户集合中筛选在所述目标品类中未触发所述预设操作行为的用户，得到所述候选用户群。

获取每个用户的用户画像，根据所述用户画像确定所述用户在所述目标品类中触发所述预设操作行为的第四概率，筛选第四概率大于设定阈值的用户或者第四概率最高的若干个用户，得到所述候选用户集合；

获取所述候选用户集合中每个用户的历史行为数据，根据所述候选用户集合中每个用户的历史行为数据从所述候选用户集合中筛选在所述目标品类中未触发所述预设操作行为的用户，得到所述候选用户群。

可选地，确定所述候选用户群中任一用户未来在所述目标品类中触发所述预设操作行为的第一概率，包括：

获取所述任一用户的历史行为数据，根据所述任一用户的历史行为数据确定所述任一用户在各个品类中触发所述预设操作行为的概率，得到所述任一用户的第一特征向量；

获取所述任一用户的用户画像，根据所述任一用户的用户画像确定所述任一用户在各个品类中触发所述预设操作行为的概率，得到所述任一用户的第二特征向量；

根据所述任一用户的历史行为数据，确定所述任一用户对应的品类关联特征矩阵；

获取所述目标品类的品类特征向量；

将所述第一特征向量、第二特征向量、所述品类关联特征矩阵和所述品类特征向量输入预训练的第一模型，得到所述任一用户未来在所述目标品类中触发所述预设操作行为的第一概率。

可选地，确定所述候选用户群中任一用户未来在所述目标品类中通过目标渠道触发所述预设操作行为的第二概率，包括：

获取所述任一用户的历史行为数据，根据所述任一用户的历史行为数据确定所述任一用户在所述目标品类中触发的每条所述预设操作行为的触发渠道，得到所述任一用户的渠道偏好向量；

将所述任一用户的所有渠道偏好向量输入预训练的第二模型，得到所述任一用户未来在所述目标品类中通过目标渠道触发所述预设操作行为的第二概率。

可选地，根据第一概率和第二概率确定所述任一用户未来在所述目标品类中通过目标渠道触发所述预设操作行为的第三概率，包括：以第一概率和第二概率的乘积作为所述任一用户未来在所述目标品类中通过目标渠道触发所述预设操作行为的第三概率。

可选地，从所有用户中筛选在目标品类中未触发预设操作行为的候选用户群之前，还包括：

接收用户输入的用户筛选请求，从所述用户筛选请求中解析目标品类；确认缓存中不存在与所述目标品类对应的目标用户群；若缓存中存在与所述目标品类对应的目标用户群，则从缓存中获取与所述目标品类对应的目标用户群。

根据本发明实施例的第二方面，提供一种用户筛选的装置，包括：

召回模块，从所有用户中筛选在目标品类中未触发预设操作行为的候选用户群；

预估模块，确定所述候选用户群中任一用户未来在所述目标品类中触发所述预设操作行为的第一概率、以及未来在所述目标品类中通过目标渠道触发所述预设操作行为的第二概率；

融合模块，根据第一概率和第二概率确定所述任一用户未来在所述目标品类中通过目标渠道触发所述预设操作行为的第三概率；从所述候选用户群中筛选第三概率满足预设条件的用户，得到与所述目标品类对应的目标用户群。

可选地，召回模块筛选在目标品类中不具有预设操作行为的候选用户群，包括：

可选地，预估模块确定所述候选用户群中任一用户未来在所述目标品类中触发所述预设操作行为的第一概率，包括：

获取所述目标品类的品类特征向量；

可选地，预估模块确定所述候选用户群中任一用户未来在所述目标品类中通过目标渠道触发所述预设操作行为的第二概率，包括：

可选地，融合模块根据第一概率和第二概率确定所述任一用户未来在所述目标品类中通过目标渠道触发所述预设操作行为的第三概率，包括：以第一概率和第二概率的乘积作为所述任一用户未来在所述目标品类中通过目标渠道触发所述预设操作行为的第三概率。

可选地，所述装置还包括输入输出模块，用于：在所述召回模块从所有用户中筛选在目标品类中未触发预设操作行为的候选用户群之前，接收用户输入的用户筛选请求，从所述用户筛选请求中解析目标品类；确认缓存中不存在与所述目标品类对应的目标用户群；若缓存中存在与所述目标品类对应的目标用户群，则从缓存中获取与所述目标品类对应的目标用户群。

根据本发明实施例的第三方面，提供一种用户筛选的电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明实施例第一方面提供的方法。

根据本发明实施例的第四方面，提供一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现本发明实施例第一方面提供的方法。

上述发明中的一个实施例具有如下优点或有益效果：通过筛选在目标品类中未触发预设操作行为的候选用户群，能够筛选目标品类的新用户；通过确定用户未来在目标品类中触发预设操作行为的第一概率，能够在新用户中筛选对目标品类偏好高的用户；通过确定用户未来在目标品类中通过目标渠道触发预设操作行为的第二概率，能够在新用户中筛选对目标渠道偏好高的用户。本发明能够保证筛选逻辑与筛选目标之间的匹配，使得筛选得到的目标用户群对目标品类以及目标渠道具有较高偏高，提高用户筛选效果。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明实施例的用户筛选的方法的主要流程的示意图；

图2是本发明可选实施例中用户筛选的方法的架构示意图；

图3是本发明可选实施例中用户筛选的方法的流程示意图；

图4是本发明可选实施例中筛选候选用户群的示意图；

图5是本发明可选实施例中通过用户画像筛选候选用户群的示意图；

图6是本发明可选实施例中品类关系挖掘的示意图；

图7是本发明可选实施例中利用DNN确定第一概率的示意图；

图8是根据本发明实施例的用户筛选的装置的主要模块的示意图；

图9是本发明实施例可以应用于其中的示例性系统架构图；

图10是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

根据本发明实施例的一个方面，提供了一种用户筛选的方法。

图1是根据本发明实施例的用户筛选的方法的主要流程的示意图，如图1所示，根据本发明实施例的用户筛选的方法，包括：步骤S101-步骤S105。

步骤S101，从所有用户中筛选在目标品类中未触发预设操作行为的候选用户群。

此处提及的“所有用户”，是指在筛选范围内的所有用户。以电商领域为例，当从电商平台拥有的所有注册用户中筛选广告推广对象时，筛选范围是电商平台拥有的所有注册用户。以券商领域为例，当从最近三年的开户用户中筛选广告推广用户时，筛选范围内最近三年在券商平台开户的用户。

操作行为是指用户触发执行某一操作的行为。预设操作行为可以根据实际情况进行选择性设定，例如用户的浏览、点击、关注、加入购物车、收藏等操作行为。未触发预设操作行为，可以指从未触发过预设操作行为，也可以值在设定时段内未触发预设操作行为。

候选用户群中的用户均是目标品类的新用户。本步骤旨在从所有用户中筛选目标品类的新用户，以便有针对性地制定品类拉新(拉新即吸收新用户)策略。筛选候选用户群的方式可以根据实际情况进行选择性设定，例如在特定年龄或学历范围内筛选在目标品类中未触发预设操作行为的用户、在特定地理位置范围内筛选在目标品类中未触发预设操作行为的用户等。在可选的实施例中，可以采用以下任意一种或多种方式筛选候选用户群：(1)根据用户的品类行为召回，(2)根据目标群体的TGI召回，(3)根据时间衰减召回，(4)根据用户画像召回。以下分别详述每种筛选候选用户群的实现方式。当采用上述多种方式时，可以将不同方式得到的候选用户群合并去重，最为最终得到的后续用户群。

(1)根据用户的品类行为召回：获取所有用户的历史行为数据，根据所述历史行为数据筛选在目标品类中未触发所述预设操作行为的用户，得到所述候选用户群。实际应用过程中，可以采用日志上报的方式获取用户的历史行为数据，通过分析日志数据确定用户是否在目标品类中触发预设操作行为。筛选从未在目标品类触发预设操作行为、或者在设定时段内未在目标品类触发预设操作行为的用户作为候选用户，得到候选用户群。

(2)根据目标群体的TGI召回：将所有用户划分为多个目标群体，获取所述目标群体内每个用户的历史行为数据；以在目标品类中触发所述预设操作行为作为共同特征，根据所述目标群体内每个用户的历史行为数据确定所述目标群体的TGI指数，筛选TGI指数大于预设TGI阈值的目标群体作为候选目标群体；根据所述候选目标群体内每个用户的历史行为数据从所述候选目标群体中筛选在目标品类中未触发所述预设操作行为的用户，得到所述候选用户群。

TGI(Target Group Index)指数，是反映目标群体在特定研究范围(如地理区域、人口统计领域、媒体受众、产品消费者)内的强势或弱势的指数。TGI指标越高，说明筛选的用户群体和目标品类关系越近，召回效果越好。示例性地，电商平台具有10000名用户，其中男性5500名，以在数码类产品中触发预设操作行为作为共同特征，男性用户中具有该共同特征的用户数量为4000，所有用户中具有该共同特征的用户数量为6000，则男性群体的TGI指数为：(4000/5500)/(6000/10000)＝1.21。

(3)根据时间衰减召回：获取多个历史时段内所有用户的历史行为数据，根据每个历史时段内的历史行为数据确定所述用户在对应历史时段内对所述目标品类的偏好值；按照时间衰减方式累加所述用户在各个历史时段内对所述目标品类的偏好值得到用户对所述目标品类的偏好指标，筛选偏好指标大于设定阈值的用户得到候选用户集合；根据所述候选用户集合中每个用户的历史行为数据从所述候选用户集合中筛选在所述目标品类中未触发所述预设操作行为的用户，得到所述候选用户群。

偏好值用于反映用户对目标品类的偏好程度，偏好值越大，表明用户对目标品类越感兴趣，越有可能购买目标品类的物品。偏好值的衡量指标可以根据实际情况进行选择性设定，例如用户所有订单中目标品类订单的占有率，再例如根据用户画像或者用户历史行为记录、采用预训练的模型预测用户对目标品类物品的购买概率。距当前时间越短，偏好值的权重越大；距今时间越长，偏好值的权重越小。

按照时间衰减方式累加是指，按照时间衰减方式确定各个历史时段的偏好值的权重，然后再格局确定出的权重累加用户在各个历史时段内的偏好值，得到用户对目标品类的偏好指标。在可选的实施例中，时间衰减公式为：

式中，x代表用户；y代表目标品类；α是常数，可以拟合也可以自定义；i代表历史时间距今时长，单位可自定义，例如天；k代表历史时间距今的最大时长，单位与i的单位相同；P{y|x,1,k}代表在距今时长为k(单位可自定义，例如为天)时用户x对目标品类y的偏好值权重。

用户在目标品类触发预设操作行为的时间越长，其对应的偏好值指标越大。实际应用过程中，当针对大量历史行为数据进行分析时，可以采用增量和全量综合计算的方式进行分析处理。示例性地，若每天均根据2020年1月1日以来的所有历史行为数据确定用户对目标品类的偏好指标，则可以在前次计算得到的偏好指标的基础上，仅计算当前的偏好值，将当前的偏好值与前一次计算得到的偏好指标相加，作为当天的偏好指标。通过采用增量和全量综合计算的方式进行分析处理，每次仅需要计算当天的数据，在确定用户的偏好指标时所有历史行为数据仅需要计算一次，从而能够大大降低计算资源的消耗，提高用户筛选的效率。

(4)根据用户画像召回：获取每个用户的用户画像，根据所述用户画像确定所述用户在所述目标品类中触发所述预设操作行为的第四概率，筛选第四概率大于设定阈值的用户或者第四概率最高的若干个用户，得到所述候选用户集合；获取所述候选用户集合中每个用户的历史行为数据，根据所述候选用户集合中每个用户的历史行为数据从所述候选用户集合中筛选在所述目标品类中未触发所述预设操作行为的用户，得到所述候选用户群。

用户画像又称用户角色，是真实用户的虚拟代表，是通过大数据建立描绘用户的标签。

实际应用过程中，可以根据用户画像直接计算用户在目标品类中触发预设操作行为的概率。以图5为例，先计算用户A在品类1-5中触发预设操作行为的概率，假设分别为p1、p2、p3、p4和p5，以p1作为用户A在品类1中触发预设操作行为的第四概率。

当然，也可以计算用户在所有品类中触发预设操作行为的概率，根据用户在目标品类以外的其他品类中触发预设操作行为的概率、以及其他品类与目标品类之间的转化关系，确定在其他品类触发预设操作行为的用户未来在目标品类触发预设操作行为的概率，将该概率与直接计算的用户在目标品类中触发预设操作行为的概率相加，得到用户在目标品类中触发预设操作行为的第四概率。以图5为例，先计算用户A在品类1-5中触发预设操作行为的概率，假设分别为p1、p2、p3、p4和p5。假设在品类2-5触发预设操作行为的用户未来在品类1触发预设操作行为的概率分别为p2’、p3’、p4’和p5’，则用户A在品类1中触发预设操作行为的第四概率是：(p1+p2’+p3’+p4’+p5’)。

在确定用户在某一品类中触发预设操作行为的概率时，可以基于用户的历史行为数据训练预估模型，利用训练得到的预估模型确定用户在特定品类中触发预设操作行为的概率。当然，对于某一品类，也可以根据用户在该品类触发预设操作行为的操作行为数量与历史行为数据中包含的操作行为总数量之间的比例作为用户在该品类触发预设操作行为的概率。图6是本发明可选实施例中品类关系挖掘的示意图。如图6所示，在确定品类X向品类Y转化的概率时，可以先计算用户在品类X触发预设操作行为的概率Sup(X)，然后计算同时在品类X和品类Y触发预设操作行为的概率Sup(X∪Y)，以Sup(X∪Y)/Sup(X)作为品类X向品类Y转化的概率，即在品类X触发预设操作行为的用户在品类Y触发预设操作行为的概率。通过考虑各个品类之间的关联关系，能够进一步提高用户筛选的准确性。

步骤S102，确定所述候选用户群中任一用户未来在所述目标品类中触发所述预设操作行为的第一概率。

对于某一品类，可以根据用户在该品类触发预设操作行为的操作行为数量与历史行为数据中包含的操作行为总数量之间的比例作为用户未来在该品类触发预设操作行为的第一概率，也可以基于用户的历史行为数据训练预估模型，利用训练得到的预估模型确定用户在特定品类中触发预设操作行为的第一概率。

可选地，确定所述候选用户群中任一用户未来在所述目标品类中触发所述预设操作行为的第一概率，包括：获取所述任一用户的历史行为数据，根据所述任一用户的历史行为数据确定所述任一用户在各个品类中触发所述预设操作行为的概率，得到所述任一用户的第一特征向量；获取所述任一用户的用户画像，根据所述任一用户的用户画像确定所述任一用户在各个品类中触发所述预设操作行为的概率，得到所述任一用户的第二特征向量；根据所述任一用户的历史行为数据，确定所述任一用户对应的品类关联特征矩阵；获取所述目标品类的品类特征向量；将所述第一特征向量、第二特征向量、所述品类关联特征矩阵和所述品类特征向量输入预训练的第一模型，得到所述任一用户未来在所述目标品类中触发所述预设操作行为的第一概率。

第一特征向量和第二特征向量中的每个元素代表用户在对应品类中触发预设操作行为的概率，第一特征向量和第二特征向量的维度数量与品类数量相同。第一特征向量和第二特征向量的区别在于，第一特征向量中用户在对应品类中触发预设操作行为的概率是根据用户历史行为数据计算得到的，第二特征向量中用户在对应品类中触发预设操作行为的概率是根据用户画像计算得到的。

图7是本发明可选实施例中利用DNN(Deep Neural Networks，深度神经网络)确定第一概率的示意图，如图7所示，将用户特征(包括第一特征向量和第二特征向量)、品类特征(包括品类关联特征矩阵和品类特征向量)等输入DNN深度神经网络模型，预测用户在未来7天内在目标品类下单的概率。在用户筛选过程中，为了充分考虑用户的内在特征，也可以将用户历史行为数据中的物品价格、品牌、产地等特征输入模型。

第一概率是候选用户转化为目标品类的新用户的概率，反映的是用户转新率。本发明实施例在确定第一概率时，不光考虑用户画像，还考虑用户其他更丰富的特征，比如用户历史行为数据、品类关联关系、用户在各个品类的行为特征等，再加上采用深度神经网络模型进行高阶挖掘内在特征，能够实现用户未来转新率的准确预估。

在一些可选的实施例中，可以先确定用户未来在该品类触发预设操作行为的概率，例如以用户在该品类触发预设操作行为的操作行为数量与历史行为数据中包含的操作行为总数量之间的比例作为该概率，或者基于用户的历史行为数据训练预估模型、利用训练得到的预估模型确定该概率；然后直接以该概率作为用户在对应品类中触发预设操作行为的第一概率。示例性地，以图5为例，先计算用户A在品类1-5中触发预设操作行为的概率，假设分别为p1、p2、p3、p4和p5，直接以p1作为用户A在品类1中触发预设操作行为的第一概率。

实际应用过程中，也可以进一步根据其他品类与目标品类之间的关联关系，确定在其他品类触发预设操作行为的用户未来在目标品类触发预设操作行为的概率，将该概率与直接计算的用户在目标品类中触发预设操作行为的概率相加，得到用户在目标品类中触发预设操作行为的第四概率。以图5为例，先计算用户A在品类1-5中触发预设操作行为的概率，假设分别为p1、p2、p3、p4和p5。假设在品类2-5触发预设操作行为的用户未来在品类1触发预设操作行为的概率分别为p2’、p3’、p4’和p5’，则用户A在品类1中触发预设操作行为的第四概率也可以是：(p1+p2’+p3’+p4’+p5’)。

用户对应的品类关联特征矩阵是指根据各个用户的历史行为数据确定出的各个品类之间的关联关系。图6是本发明可选实施例中品类关系挖掘的示意图。如图6所示，对于某一用户，在确定品类X向品类Y转化的概率时，可以先计算用户在品类X触发预设操作行为的概率Sup(X)，然后计算同时在品类X和品类Y触发预设操作行为的概率Sup(X∪Y)，以Sup(X∪Y)/Sup(X)作为品类X向品类Y转化的概率，即在品类X触发预设操作行为的用户在品类Y触发预设操作行为的概率。通过考虑各个品类之间的关联关系，能够进一步提高用户筛选的准确性。当与目标品类之间存在关联关系的品类较多时，为了降低计算量，可以仅考虑关联关系最紧密的前若干个品类对目标品类的转化情况。

品类特征向量是指品类的属性特征形成的向量。属性特征的具体内容可以选择性定义，例如品类的广告曝光量、品类的新用户转化率(即新用户中触发预设操作行为的用户的比例)。为了便于进行分析处理，品类特征经过Embedding(一个将离散变量转为连续向量表示的一个方式)进行编码，连续性特征进行归一化处理，离散特征StringIndex编码。

步骤S103，确定所述候选用户群中任一用户未来在所述目标品类中通过目标渠道触发所述预设操作行为的第二概率。

第二概率反映用户对目标渠道的偏好程度。用户对目标渠道的偏好程度越高，第二概率越大。以广告投放为例，用户对目标品类(假设美妆类物品)的目标渠道(广告)的偏好值越大，表明用户越有可能通过广告浏览或购买目标品类的物品。

对于某一品类，可以根据用户在该品类通过目标渠道触发预设操作行为的操作行为数量与历史行为数据中包含的操作行为总数量之间的比例作为用户未来在该品类触发预设操作行为的第二概率，也可以基于用户的历史行为数据训练预估模型，利用训练得到的预估模型确定用户在特定品类中通过目标渠道触发预设操作行为的第二概率。

可选地，确定所述候选用户群中任一用户未来在所述目标品类中通过目标渠道触发所述预设操作行为的第二概率，包括：获取所述任一用户的历史行为数据，根据所述任一用户的历史行为数据确定所述任一用户在所述目标品类中触发的每条所述预设操作行为的触发渠道，得到所述任一用户的渠道偏好向量；将所述任一用户的所有渠道偏好向量输入预训练的第二模型，得到所述任一用户未来在所述目标品类中通过目标渠道触发所述预设操作行为的第二概率。第二模型的网络结构可以根据实际情况进行选择性设定。可选地，采用XGBoot(一个开源软件库)来训练第二模型。

第二模型本质上是一种CTR(Click-Through-Rate，点击通过率)模型、广告偏好模型。针对广告的CPM计费方式，通过建立CTR模型，能够实现对目标渠道的偏好程度低的用户进行过滤或者降权，在较低的拉新成本CAC(Customer Acquisition Cost，用户获取成本，即花多少成本获取一个新用户。CAC是总的市场相关花费除以总的对应花费带来的所有新用户数)的情况下获取到更多的新用户。

渠道偏好向量反映用户对对应渠道的偏好程度。第二模型的输出可以采用“用户标识+品类+品牌+触点+第二概率”的结构。第二模型的输出如下表1所示：

表1第二模型的输出

表1中，触点代表渠道。

步骤S104，根据第一概率和第二概率确定所述任一用户未来在所述目标品类中通过目标渠道触发所述预设操作行为的第三概率。

第三概率与第一概率和第二概率正相关，第三概率越大，表明用户在目标品类通过目标渠道触发预设操作行为的概率越大。可选地，根据第一概率和第二概率确定所述任一用户未来在所述目标品类中通过目标渠道触发所述预设操作行为的第三概率，包括：以第一概率和第二概率的乘积作为所述任一用户未来在所述目标品类中通过目标渠道触发所述预设操作行为的第三概率。

步骤S105，从所述候选用户群中筛选第三概率满足预设条件的用户，得到与所述目标品类对应的目标用户群。

在可选的实施例中，在从所有用户中筛选在目标品类中未触发预设操作行为的候选用户群之前，还包括：接收用户输入的用户筛选请求，从所述用户筛选请求中解析目标品类；确认缓存中不存在与所述目标品类对应的目标用户群；若缓存中存在与所述目标品类对应的目标用户群，则从缓存中获取与所述目标品类对应的目标用户群。本实施例中，首先以品类为维度确定各个品类对应的目标用户群，然后将用户筛选请求中各个品类对应的目标用户群合并后返回给用户。通过将用户筛选请求分析为以品类为维度的筛选任务，能够提高本发明实施例的用户筛选方法的适应性和扩展性。同时，由于设置缓存，能够避免在多个用户筛选请求中包含相同品类时的重复计算，降低计算资源消耗，提高用户筛选效率。

图2是本发明可选实施例中用户筛选的方法的架构示意图，图3是本发明可选实施例中用户筛选的方法的流程示意图。如图2和3所示，本发明实施例中，以用户画像、品类为表(各个品类之间的包含和转化关系)、行为表(即用户的搜索、浏览、点击、关注等行为的表)、订单表(即包含用户各个订单的表)等数据作为基础数据，进行用户筛选。根据基础数据挖掘品类关联关系、用户对各个品类的偏好、用户在各个品类的操作行为、用户在各个品类的订单、不同群体TGI指标等。用户的用户筛选请求就是一个用户筛选任务，将任务分解为以品类为维度的各个子任务。通过用户行为数据、用户画像、时间衰减、品类关系等筛选各个品类的候选用户群。根据用户特征、品类特征、用户在各个品类的行为特征等采用预估模型确定候选用户群中各个用户的第一和第二概率，对第一概率和第二概率进行融合，得到用户未来在目标品类触发预设操作行为的第三概率，按照第三概率从高到低的顺序排序所有候选用户，或者筛选第三概率大于设定阈值的前若干个候选用户，得到目标用户群。

实际应用过程中，本发明实施例的方法可以是通过Spark(一种计算引擎)+hive(一个数据仓库工具)实现的一个离线系统，整个有筛选阶段除了用户输入外，都是在离线阶段完成的。这样更加便于采用更大规模的数据集和更加复杂的算法实现效果最大化。系统外部以任务维度进行输入。对于系统内部而言，多个任务之间可能存在重复的品类，因此，系统内部按品类进行去重，生成基于品类的输入，输出也是品类的输出。最后，通过任务关联的品类和内部计算得到的各个品类的品类结果(目标用户群)，生成最终对外的基于任务的人群包。

需要说明的是，本发明实施例中提及的用户历史行为数据，可以是用户有史以来的所有行为数据，也可以是特定时段内的行为数据。历史行为数据的粒度可以自定义，例如粒度上可以分为1天、2天、7天、14天等等。

本发明实施例可以使用开源机器学习库Tensorflow来实现用户筛选的模型。Tensorflow是Google开发的一个机器学习开源软件库，它同时提供了low-level与high-level API，既可以使用high-level API快速搭建成熟的深度模型，又可以选择使用low-level API来灵活构建深度学习网络模型。对于优惠券商品的联合推荐场景，由于没有现成的模型供使用，因此可以选择利用Tensorflow的一系列low-level API来搭建深度学习网络模型。用户筛选的模型构建完成以后，通常需要运行一段时间来完成模型的训练。训练的时长通常由模型本身的表现能力、模型的复杂度、训练模型所用到的硬件能力，以及应用模型的业务场景来决定。在优惠券商品联合推荐的场景中，考虑到用户的行为以及优惠券的更新频率较高，可以每天训练一次模型，每次训练使用的数据为当前时间往前的若干天的历史数据。模型部署

在部署用户筛选的模型时，由于系统是离散的，因此所有特征的训练加工都可以依赖于BDP((Business Data Platform，商业数据平台)平台，DNN模型可以基于pythonspark+tensorflow batch预测。XGBoost模型可以基于ptyhon Spark+XGBoost包预测。

本发明实施例中，通过筛选在目标品类中未触发预设操作行为的候选用户群，能够筛选目标品类的新用户；通过确定用户未来在目标品类中触发预设操作行为的第一概率，能够在新用户中筛选对目标品类偏好高的用户；通过确定用户未来在目标品类中通过目标渠道触发预设操作行为的第二概率，能够在新用户中筛选对目标渠道偏好高的用户。本发明能够保证筛选逻辑与筛选目标之间的匹配，使得筛选得到的目标用户群对目标品类以及目标渠道具有较高偏高，提高用户筛选效果。

用户增长领域品类增长是一个重要的方向，品类用户拉新对企业至关重要。现有技术通常根据用户画像筛选目标品类的用户群，通过广告实现用户触达和曝光。但是，广告一般利用CPM(千人成本是一种媒体或媒体排期表(SCHEDULING)送达1000人或“家庭”的成本计算单位，可用于计算任何媒体、任何人口统计群体及任何总成本。它便于说明一种媒体与另一种媒体、一个媒体排期表与另一媒体排期表相对的成本。千人成本并非是广告主衡量媒体的唯一标准，只是为了对不同媒体进行衡量不得已而制定的一个相对指标。衡量一个媒体价值的数字)、CPC(Cost Per Click，每点击成本。CPC是一种点击付费广告，根据广告被点击的次数收费)等方式计费，实现ROI(Return On Investment，投资回报率)、GMV(Gross Merchandise Volume，成交总额)等最大化，没有直接针对CAC(CustomerAcquisition Cost，用户获取成本，即花多少成本获取一个新用户。CAC是总的市场相关花费除以总的对应花费带来的所有新用户数)进行建模，因此本质上与营销目标是不完全匹配的。

采用本发明实施例的用户筛选方法进行品类用户拉新，能够针对同品类或跨品类以及广告建立一套品类拉新模型，实现高效的品类拉新算法，算法与营销目标是匹配度高，在相同成本的情况下尽可能多的获取品类新用户，实现拉新效果最大化。

根据本发明实施例的第二方面，提供一种用户筛选的装置。

图8是根据本发明实施例的用户筛选的装置的主要模块的示意图，如图8所示，用户筛选的装置800包括：

召回模块801，从所有用户中筛选在目标品类中未触发预设操作行为的候选用户群；

预估模块802，确定所述候选用户群中任一用户未来在所述目标品类中触发所述预设操作行为的第一概率、以及未来在所述目标品类中通过目标渠道触发所述预设操作行为的第二概率，根据第一概率和第二概率确定所述任一用户未来在所述目标品类中通过目标渠道触发所述预设操作行为的第三概率；

融合模块803，从所述候选用户群中筛选第三概率满足预设条件的用户，得到与所述目标品类对应的目标用户群。

获取所述目标品类的品类特征向量；

一个或多个处理器；

存储装置，用于存储一个或多个程序，

图9示出了可以应用本发明实施例的用户筛选的方法或用户筛选的装置的示例性系统架构900。

如图9所示，系统架构900可以包括终端设备901、902、903，网络904和服务器905。网络904用以在终端设备901、902、903和服务器905之间提供通信链路的介质。网络904可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备901、902、903通过网络904与服务器905交互，以接收或发送消息等。终端设备901、902、903上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备901、902、903可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器905可以是提供各种服务的服务器，例如对用户利用终端设备901、902、903所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理，并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。

需要说明的是，本发明实施例所提供的用户筛选的方法一般由服务器905执行，相应地，用户筛选的装置一般设置于服务器905中。

应该理解，图9中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图10，其示出了适于用来实现本发明实施例的终端设备的计算机系统1000的结构示意图。图10示出的终端设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图10所示，计算机系统1000包括中央处理单元(CPU)1001，其可以根据存储在只读存储器(ROM)1002中的程序或者从存储部分1008加载到随机访问存储器(RAM)1003中的程序而执行各种适当的动作和处理。在RAM 1003中，还存储有系统1000操作所需的各种程序和数据。CPU 1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

以下部件连接至I/O接口1005：包括键盘、鼠标等的输入部分1006；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1007；包括硬盘等的存储部分1008；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1010上，以便于从其上读出的计算机程序根据需要被安装入存储部分1008。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1009从网络上被下载和安装，和/或从可拆卸介质1011被安装。在该计算机程序被中央处理单元(CPU)1001执行时，执行本发明的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括召回模块、预估模块和融合模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，预估模块还可以被描述为“从所有用户中筛选在目标品类中未触发预设操作行为的候选用户群的模块”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：从所有用户中筛选在目标品类中未触发预设操作行为的候选用户群；确定所述候选用户群中任一用户未来在所述目标品类中触发所述预设操作行为的第一概率、以及未来在所述目标品类中通过目标渠道触发所述预设操作行为的第二概率，根据第一概率和第二概率确定所述任一用户未来在所述目标品类中通过目标渠道触发所述预设操作行为的第三概率；从所述候选用户群中筛选第三概率满足预设条件的用户，得到与所述目标品类对应的目标用户群。

根据本发明实施例的技术方案，通过筛选在目标品类中未触发预设操作行为的候选用户群，能够筛选目标品类的新用户；通过确定用户未来在目标品类中触发预设操作行为的第一概率，能够在新用户中筛选对目标品类偏好高的用户；通过确定用户未来在目标品类中通过目标渠道触发预设操作行为的第二概率，能够在新用户中筛选对目标渠道偏好高的用户。本发明能够保证筛选逻辑与筛选目标之间的匹配，使得筛选得到的目标用户群对目标品类以及目标渠道具有较高偏高，提高用户筛选效果。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种用户筛选的方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，筛选在目标品类中不具有预设操作行为的候选用户群，包括：

3.如权利要求1所述的方法，其特征在于，筛选在目标品类中不具有预设操作行为的候选用户群，包括：

4.如权利要求1所述的方法，其特征在于，筛选在目标品类中不具有预设操作行为的候选用户群，包括：

5.如权利要求1所述的方法，其特征在于，筛选在目标品类中不具有预设操作行为的候选用户群，包括：

6.如权利要求1所述的方法，其特征在于，确定所述候选用户群中任一用户未来在所述目标品类中触发所述预设操作行为的第一概率，包括：

获取所述目标品类的品类特征向量；

7.如权利要求1所述的方法，其特征在于，确定所述候选用户群中任一用户未来在所述目标品类中通过目标渠道触发所述预设操作行为的第二概率，包括：

8.如权利要求1-7任一所述的方法，其特征在于，根据第一概率和第二概率确定所述任一用户未来在所述目标品类中通过目标渠道触发所述预设操作行为的第三概率，包括：以第一概率和第二概率的乘积作为所述任一用户未来在所述目标品类中通过目标渠道触发所述预设操作行为的第三概率。

9.如权利要求1-8任一所述的方法，其特征在于，从所有用户中筛选在目标品类中未触发预设操作行为的候选用户群之前，还包括：

10.一种用户筛选的装置，其特征在于，包括：

11.一种用户筛选的电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-9中任一所述的方法。

12.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-9中任一所述的方法。