CN113139833A

CN113139833A - 一种基于用户活跃时区预测和流量分发优化的推荐方法

Info

Publication number: CN113139833A
Application number: CN202110473382.XA
Authority: CN
Inventors: 何海洪; 吴建; 周岳飞; 陈浩; 杨广平
Original assignee: Hangzhou Hutu Technology Co ltd
Current assignee: Hangzhou Hutu Technology Co ltd
Priority date: 2021-04-29
Filing date: 2021-04-29
Publication date: 2021-07-20
Anticipated expiration: 2041-04-29
Also published as: CN113139833B

Abstract

本发明公开了一种基于用户活跃时区预测和流量分发优化的推荐方法，包括以下步骤：根据用户行为数据预测用户的活跃时区和用户对兼职的推荐度；根据用户行为日志提取并修正各时区中类目的目标流量以及各时区中兼职的初始流量；在类别的目标流量、兼职的初始流量、用户对兼职感兴趣程度基础上，根据业务需求和业务目标构建时区流量分发优化模型，通过更新迭代时区流量分发优化模型的流量分配策略，为用户实现个性化的兼职推荐。本发明可以为用户提供个性化推荐服务的同时，缓解互联网行业关于流量分发方面存在的马太效应，使得长尾产品得以更多地曝光，提升整体的转化率和收益。

Description

一种基于用户活跃时区预测和流量分发优化的推荐方法

技术领域

本发明涉及互联网流量分发和大数据推荐领域，具体涉及一种基于用户活跃时区预测和流量分发优化的推荐方法。

背景技术

随着互联网技术的发展，每天都产生着巨量信息，人们正面临着湮没于“信息汪洋”的困境，人们通过搜索引擎可以获得部分“想要”的信息，但是得到的信息并不一定全完符合预期，因为人们往往并不总能很准确地描述自己想要的，因此，根据用户喜好个性化地为用户推荐其可能感兴趣的信息变得很有必要。

在传统的互联网推荐领域，80％左右的流量往往集中在20％左右的用户群体中，部分产品变成热品后更容易曝光给更多地用户，所以流量往往集聚在头部热品，导致热品更热，尾部产品曝光机会更少，形成严重的马太效应，长尾产品的价值得不到充分的挖掘，而运筹优化理论可以在资源或条件有限的情况下，以最优的方式配置相关资源，使系统达到限制条件下的最优状态，因此，科学合理的全局流量分发优化对缓解该问题意义重大。

发明内容

本发明的目的在于，提供一种基于用户活跃时区预测和流量分发优化的推荐方法。本发明可以为用户提供个性化推荐服务的同时，缓解互联网行业关于流量分发方面存在的马太效应，使得长尾产品得以更多地曝光，提升整体的转化率和收益。

为解决上述技术问题，本发明提供的技术方案如下：一种基于用户活跃时区预测和流量分发优化的推荐方法，包括以下步骤：

S1、根据用户行为数据预测用户的活跃时区和用户对兼职的推荐度；

S2、根据用户行为日志提取并修正各时区中类目的目标流量以及各时区中兼职的初始流量；

S3、在类别的目标流量、兼职的初始流量、用户对兼职感兴趣程度基础上，根据业务需求和业务目标构建时区流量分发优化模型，通过更新迭代时区流量分发优化模型的流量分配策略，为用户实现个性化的兼职推荐。

上述的基于用户活跃时区预测和流量分发优化的推荐方法，所述活跃时区是将每天24小时按从夜晚零点每隔2小时为一时区的方式划分为12个时区，分别标记为0、1、2...11；然后根据用户行为数据构建训练集，训练lightGBM多分类模型，利用lightGBM多分类模型将用户划分到最可能产生相关行为的时区，该时区即为活跃时区；

根据用户行为数据构建训练集，结合用户特征、兼职特征以及时间特征训练lightGBM二分类模型，利用lightGBM二分类模型输出用户对各兼职的推荐度。

前述的基于用户活跃时区预测和流量分发优化的推荐方法，在活跃时区的基础上，利用用户与兼职距离、兼职性别、兼职年龄要求、兼职要求的匹配度，组合出符合相关需求的用户兼职组合，并结合用户特征、兼职特征和时间特征，预测用户兼职组合所对应的推荐度。

前述的基于用户活跃时区预测和流量分发优化的推荐方法，步骤S2中，各时区中类目的目标流量修正是通过使用类目在各时区的转化率对该时区的流量进行修正，计算公式如下：

类目时区转化率：ctcr_ij＝cts_ij/cti_ij，cts_ij表示类目i在时区j的报名PV数，cti_ij表示对应的曝光PV数；

类目时区转化率占比：

ctcrr_ij＝(ctcr_ij-min(ctcr_ij))/(max(ctcr_ij)-min(ctcr_ij))；

类目时区流量占比：

ctf_ij表示类目i在时区j的流量；

类目时区修正转化率：ctmcr_ij＝ctcrr_ij/ctfr_ij；

修正流量：

所述各时区中兼职的初始流量的修正是通过使用兼职在各时区的转化率对该时区的初始流量进行修正，其相关计算公式如下：

兼职时区转化率：jtcr_kj＝jts_kj/jti_kj，jts_kj表示兼职k在时区j的报名PV数，jts_kj表示对应的曝光PV数；

兼职时区流量：jtf_kj＝jh_k×jsar_k/jtcr_kj，jh_k表示兼职k需要招聘的人数，jtar_k表示兼职k的时区平均人数占比；

兼职时区流量占比：

修正初始流量：jtmf_kj＝jtfr_kj×jtfr_kj。

前述的基于用户活跃时区预测和流量分发优化的推荐方法，所述时区流量分发优化模型如下：

约束条件和目标函数表示为：

s.t.

GMV_j+1≥GMV_j

CVR_j+1≥CVR_j；

式中：rcm_u，k，j表示用户u在j时区对兼职k的推荐度；b_u，k，j表示在j时区用户u是否报名兼职k；p_k表示兼职k带来的单位收益；GMVj表示在j时区对应用户报名兼职总共产生的收益；CVR_j表示在j时区为用户推荐兼职总共可能的转化率；

每次迭代均计算各时区的类目和兼职优化分配的流量，然后与初始流量或上一次迭代后的流量进行对比，相关流量计算公式如下：

式中：tf_k，j表示为时区中类目的优化分配流量；ctf_c，j表示为时区中兼职的优化分配流量；C_c表示兼职所在类目C集合中的第C类；

对于已经达到目标流量的类目或者兼职，对类目和兼职设置相应的惩罚变量：

式中：tf_k，j为兼职k在j时区对应的流量；pb_k，j+1为k兼职在j+1时区流量是否超出预期的标记；ctf_c，j为类目C的兼职在j时区对应的流量；cpb_k，j+1为类目C的兼职在j+1时区流量是否超出预期的标记；

惩罚后目标函数则变成如下表达：

u∈(1，2...U)，k∈(1，2，...K)，j∈(0，1，...11)；

其中，pq_k，j为对于k兼职超出部分流量单位惩罚，其计算公式为：

最后，对于平均收益不再增长或出现下降趋势的兼职对应的推荐度进行降权，用于判断收益不再增长的方法如下：

其中，GMV_c，j表示类目C的兼职在j时区的总收益，MAGMV_c，j表示类目C在j时区的平均收益值，dwb_c，j表示在j时区类目c的兼职是否需要对推荐度进行降权处理。

前述的基于用户活跃时区预测和流量分发优化的推荐方法，按时区顺序更新迭代时区流量分发优化模型的流量分配策略。

与现有技术相比，本发明通过根据用户行为数据预测用户的活跃时区和用户对兼职的推荐度；再根据用户行为日志提取并修正各时区中类目的目标流量以及各时区中兼职的初始流量；最后在类别的目标流量、兼职的初始流量、用户对兼职感兴趣程度基础上，根据业务需求和业务目标构建时区流量分发优化模型，通过更新迭代时区流量分发优化模型的流量分配策略，为用户实现个性化的兼职推荐。由此本发明在为用户提供个性化推荐服务的同时，缓解互联网行业关于流量分发方面存在的马太效应，使得长尾产品得以更多地曝光，提升整体的转化率和收益。此外，本发明在求得各用户所活跃的时区基础上，构造出用户与兼职可能的组合，并预测用户和兼职间的推荐度；在约束条件和优化目标的共同作用下，求出每个时区各类目和各兼职对应优化出的分发流量；在各时区各兼职对应的流量条件下，按照推荐度顺序将兼职推荐给用户，实现考虑流量分发优化的用户兼职个性化推荐。

附图说明

图1是本发明实施例1的流程的示意图

图2为本发明实施例2的流程示意图。

具体实施方式

下面结合实施例和附图对本发明作进一步的说明，但并不作为对本发明限制的依据。

实施例1：种基于用户活跃时区预测和流量分发优化的推荐方法，如图1所示，包括以下步骤：

实施例2：一种基于用户活跃时区预测和流量分发优化的推荐方法，包括以下步骤：

所述活跃时区是将每天24小时按从夜晚零点每隔2小时为一时区的方式划分为12个时区，分别标记为0、1、2...11；然后根据用户行为数据中所在时区为样本标签值y，用户的年龄、性别等信息为样本特征值X，譬如某28岁的男性用户在上午十点报名过某兼职，则可构成一个X＝[28,男]，y＝4的样本(时区从0开始编码)，除了用户的基本信息作为特征之外，对于行为产生时间是否为节假日、星期几等均作为部分特征，以此构建训练集；由于不同的用户所处的地理位置、天气状况以及各种条件可能都存在或大或小的差异，所以不同用户在客户端活动的时间也是有差别的，也是有规律的；同时由于user量和item量往往比较巨大，如果在每个时区都预测全量的user和item组合对的推荐度，数据量是惊人的，对服务器配置要求较高，而实际生活中的夜晚，由于大部分人并不再活跃，计算全量数据并没有太大意义，所以为了初步减少计算数据量和更贴合实际情况，对用户一天中的最可能活跃的时间段(活跃时区)进行预测，显然该问题属于多分类问题，故本实施例中采用高性能的lightGBM进行建模预测(若想实现预测用户最可能活跃的多个时区，可以调整为多时区预测，属于多标签多分类问题)；lightGBM多分类模型其实是在GBDT算法框架下改进的一种基于决策树算法的快速、分布式、高性能的GBDT框架，其分别通过单边梯度采样(Gradient-based One-Side Sampling)、互斥特征合并(Exclusive Feature Bundling)、直方图算法(Histogram)三项技术实现在更少的样本、更少的特征、更少的内存下解决高维度大数据算法的效率和可扩展性。

在灵活用工场景中，为兼职招募人员时对人员的性别、年龄等可能有一定要求，所以在预测用户活跃时区来减少计算数据量的基础上，还可以通过兼职对性别年龄学历等要求筛选出适合的人员，最后预测符合条件的user和item组合的匹配度，匹配度越高表明user对item越感兴趣，其曝光转化率可能越高，后续则以推荐为参考有序进行流量分发和推荐，该问题可处理成二分类问题，同样，本实施例中采用高性能的lightGBM进行建模预测，结合用户特征、兼职特征以及时间特征训练lightGBM二分类模型，利用lightGBM二分类模型输出用户对各兼职的推荐度，同时，在活跃时区的基础上，利用用户与兼职距离、兼职性别、兼职年龄要求、兼职要求的匹配度，组合出符合相关需求的用户兼职组合，并结合用户特征、兼职特征和时间特征，预测用户兼职组合所对应的推荐度。

由于兼职的类目、要求或性质不同，高转化可能是因为兼职本身属性也可能是因为较多的流量投入，如果仅根据转化率或者产生的收益进行流量分发并不一定就是最优的流量配置方案，例如，相同转化率下，一个是因为分配的流量较多，一个是因为兼职本身属性更受用户喜爱，如果将流量分配一部分给后者，整体的转化率很可能更高，所以用各时区的转化率占比除以对应时区的流量占比可得到用流量修正的转化率占比，然后乘以总流量即可得到各时区修正后的初始流量，该初始流量的意义在于，在后续流量分发优化求解时，缓解了由于原来流量不平衡导致的转化率差异的影响，尽量保持在相对公平的起跑线上优化流量分发，如此更容易找到全局最优解。

由此各时区中类目的目标流量修正是通过使用类目在各时区的转化率对该时区的流量进行修正，先通过类目时区的转化率占比除以类目时区的流量占比得到类目时区修正的转化率，然后将修正的转化率转化为转化率时区的转化率占比，最后乘以类目总流量即可得到各时区的类目修正流量，相关计算公式如下：

类目时区转化率：ctcr_ij＝cts_ij/cti_ij，cts_ij表示类目i在时区j的报名PV数(PV为访问量)，cti_ij表示对应的曝光PV数；

类目时区转化率占比：

ctcrr_ij＝(ctcr_ij-min(ctcr_ij))/(max(ctcr_ij)-min(ctcr_ij))；

类目时区流量占比：

ctf_ij表示类目i在时区j的流量；

类目时区修正转化率：ctmcr_ij＝ctcrr_ij/ctfr_ij；

修正流量：

所述各时区中兼职的初始流量的修正是用兼职报名PV数除以曝光PV数得到兼职各时区的转化率，然后结合类目时区流量计算出兼职时区初始流量，因为要迭代优化流量配置，需要初始化各兼职在各时区的初始流量，其相关计算公式如下：

兼职时区流量占比：

修正初始流量：jtmf_kj＝jtfr_kj×jtfr_kj。

S3、如图2所示，在类别的目标流量、兼职的初始流量、用户对兼职感兴趣程度基础上，根据业务需求和业务目标构建时区流量分发优化模型(图2表示为OR模型)，通过更新迭代时区流量分发优化模型的流量分配策略，为用户实现个性化的兼职推荐；

将流量更科学合理地进行分发是一个全局的优化问题，与现有的条件和对应的业务需求与目标紧密相连，因为构建出合理的分发优化模型，所得解可直接用于决策参考。本实施例中所述时区流量分发优化模型可抽象出如下约束条件和目标函数：

约束条件和目标函数表示为：

s.t.

GMV_j+1≥GMV_j

CVR_j+1≥CVR_j；

式中：rcm_u，k，j表示用户u在j时区对兼职k的推荐度；b_u，k，j表示在j时区用户u是否报名兼职k；p_k表示兼职k带来的单位收益；GMV_j表示在j时区对应用户报名兼职总共产生的收益；CVR_j表示在j时区为用户推荐兼职总共可能的转化率；上式对应的业务含义为：以最大化单时区优化中的总推荐度为目标，在流量分发优化下，要求推荐的转化率不低于上次迭代的转化率，推荐的总收益不低于上次迭代的总收益；

由于不同类目或者不同兼职在后续的用户喜好或反馈中表现是存在差异的，所以允许不同类目或兼职突破各自的初始修正流量，但是不能无限制突破，所以需要设置相应的惩罚项控制流量优化过程，热门类目或兼职所分配的流量带来的收益边缘效应不显著时，控制流量进一步流向这部分类目或兼职，而是分配给更有潜力的其他类目或兼职或者长尾兼职：由此对于已经达到目标流量的类目或者兼职，对类目和兼职设置相应的惩罚变量：

惩罚后目标函数则变成如下表达：

u∈(1，2…U)，k∈(1，2，…K)，j∈(0，1，…11)；

最后，对于平均收益不再增长或出现下降趋势的兼职对应的推荐度进行降权：为了实现整体收益和转化率稳定增长，对于增加流量无法再带来收益增长或者转化率增长的兼职，需要将其对用户的优先级降低，而对于同一兼职而言，能体现推荐用户优先级的为推荐度，所以对推荐度采取降权处理，对于同一用户而言，降低已无法带来收益增长的兼职的推荐度相当于增加了其他兼职的优先级，可以更好地挖掘其他兼职的潜在价值。由此用于判断收益不再增长的方法如下：

前述迭代宗旨在于，当某类目或某兼职的流量已经达到最优化时能及时做出反应将相应的流量更能好地分配到合适的类目或兼职，从而达到预期标并使整体最优；若出现某类目或某兼职的推荐度在一次降权仍然特别高的问题，降权系数设计成按迭代时区累计增加，即降权后的推荐度经历的时区越多，对应的降权权重值越大，直到众多类目间达到整体最优为止，相较于按天迭代方式，具有及时调整、快速响应变化的优点，同时也不会面临实时响应的实时计算压力。

本实施例在前述求得各用户所活跃的时区基础上，构造出用户与兼职可能的组合，并预测用户和兼职间的推荐度；在约束条件和优化目标的共同作用下，求出每个时区各类目和各兼职对应优化出的分发流量；在各时区各兼职对应的流量条件下，按照推荐度顺序将兼职推荐给用户，实现考虑流量分发优化的用户兼职个性化推荐。

Claims

1.一种基于用户活跃时区预测和流量分发优化的推荐方法，其特征在于：包括以下步骤：

S3、在类别的目标流量、兼职的初始流量和用户对兼职感兴趣程度基础上，根据业务需求和业务目标构建时区流量分发优化模型，通过更新迭代时区流量分发优化模型的流量分配策略，为用户实现个性化的兼职推荐。

2.根据权利要求1所述的基于用户活跃时区预测和流量分发优化的推荐方法，其特征在于：所述活跃时区是将每天24小时按从夜晚零点每隔2小时为一时区的方式划分为12个时区，分别标记为0、1、2...11；然后根据用户行为数据构建训练集，训练lightGBM多分类模型，利用lightGBM多分类模型将用户划分到最可能产生相关行为的时区，该时区即为活跃时区；

3.根据权利要求2所述的基于用户活跃时区预测和流量分发优化的推荐方法，其特征在于：在活跃时区的基础上，利用用户与兼职距离、兼职性别、兼职年龄要求和兼职要求的匹配度，组合出符合相关需求的用户兼职组合，并结合用户特征、兼职特征和时间特征，预测用户兼职组合所对应的推荐度。

4.根据权利要求1所述的基于用户活跃时区预测和流量分发优化的推荐方法，其特征在于：步骤S2中，各时区中类目的目标流量修正是通过使用类目在各时区的转化率对该时区的流量进行修正，计算公式如下：

类目时区转化率占比：

ctcrr_ij＝(ctcr_ij-min(ctcr_ij))/(max(ctcr_ij)-min(ctcr_ij))；

类目时区流量占比：