CN116049549A

CN116049549A - 一种基于多粒度特征融合的活动推荐方法

Info

Publication number: CN116049549A
Application number: CN202310010373.6A
Authority: CN
Inventors: 吴亚朝; 桂智明; 曹飞
Original assignee: Beijing University of Technology
Current assignee: Shenzhen Wanzhida Technology Co ltd
Priority date: 2023-01-04
Filing date: 2023-01-04
Publication date: 2023-05-02

Abstract

本发明公开了一种基于社交网络和多粒度特征融合的活动推荐方法，用于基于活动的社交网络推荐系统中，帮助组织者找到想要参加活动的用户。首先，通过爬虫技术从网络中获取相关的活动数据。然后从用户历史参与或者感兴趣的活动中提取用户的兴趣偏好，利用非线性遗忘函数对用户不同时期交互的互动赋予不同的权值。同时，由于非活跃用户参与的事件较少，无法准确获取用户偏好。根据用户共同的行为数据构建用户社交网络，提取活动内容、活动上下文和用户社交关系三种特征。根据用户的不同活跃程度进行特征提取，融合多粒度特征权重来计算用户对事件的偏好；最后，使用矩阵分解模型对评分矩阵进行分解，计算用户对目标活动的偏好值进行活动推荐。

Description

一种基于多粒度特征融合的活动推荐方法

技术领域

本发明涉及推荐系统技术领域，具体涉及一种基于多粒度特征融合的活动推荐方法，可用于同城活动推荐，能够为活动组织者推荐最有可能参与目标活动的用户。

背景技术

在疫情防控的形势下，人们的外出旅游活动减少，休闲活动回归本地化，本地休闲消费成为经济复苏的重要推动力之一。促进本地休闲消费，需要了解不同个体的休闲偏好，才能将休闲产品与用户需求精确匹配，实现个性化营销。活动型社交网络(EBSNs)是一种发布、分享本地休闲活动的社交网络，如Meetup、Plancast、豆瓣同城等。组织方在线上发起活动，用户对心仪的活动做出“感兴趣”或“要参加”等反馈。由于EBSNs平台上每天都会发布成百上千的活动，用户难以从众多的活动中筛选出符合自身兴趣爱好的活动，因此需要活动推荐系统在正确的时间内将合适的活动精确推荐给用户。

研究表明，活动自身属性(如内容、详情、标签)，活动上下文以及社交关系等都会对用户活动参与造成影响。活动推荐系统就是从用户历史交互的活动中提取主要特征，推荐用户可能参与的活动。然而，活动的生命周期较短，活动推荐通常发生在活动发布至活动举行这段时间内，导致活动在发布初期的用户反馈较少。EBSNs中的活动推荐存在严重的冷启动问题。此外，在社交网络中，不同活跃度用户的行为存在较大差异，活跃用户会参与更多的活动，可以从其参与的历史活动中提取用户特征；而对于数量更多的非活跃用户来说，他们参与活动较少，难以准确提取非活跃用户的特征。

EBSNs的活动推荐系统分为基于记忆的推荐模型、基于因子分解的推荐模型和基于图的推荐模型。基于记忆的推荐模型通过计算用户偏好和目标活动特征的相似性进行推荐。许多研究从用户历史活动的内容和上下文中提取用户特征。在提取用户偏好时，需要计算用户在不用时期交互活动对用户当前兴趣的影响，从而引入用户长短期兴趣模型以计算用户不同时期的行为权重。基于因子分解的推荐模型主要包括贝叶斯个性化排名(BPR)、矩阵分解(MF)、集体矩阵分解(CMF)、奇异值分解(SVD)。很多学者从活动语义、活动时空信息和线上社交网络中提取特征，通过因子分解模型整合用户偏好和社交网络，获得最有可能参与活动的用户列表。近年来，基于图的活动推荐研究逐渐增多。基于图的推荐模型将用户、组织者、活动等实体看作节点，将这些节点构建成一个图，将推荐问题看作一个邻近节点的查询问题。常见的度量节点相似度的方法有：随机游走、重启型随机游走和马尔科夫链模型等。

综上所述，现有的活动推荐方法普遍没有考虑到不同活跃度用户之间的差异，对所有的用户进行特征提取，构建统一的推荐模型，导致推荐的准确率降低；同时，没有很好的解决用户特征偏好随时间变化的影响；而且，对用户特征提取不够全面，没有深入挖掘用户之间潜在的社交关系，本发明通过融合多粒度的特征来计算用户的偏好。

发明内容

为了解决不同活跃度用户之间的行为差异以及EBSNs中用户之间的相互影响，本发明提出了一种基于多粒度特征融合的活动推荐方法。实现本方法的主要思路如下：首先，利用网络爬虫技术从豆瓣同城网站中获取相关的活动数据和用户数据，并对数据进行清洗；然后，将活动数据分为活动文本和活动上下文，提取活动的特征，从用户历史参与活动以及感兴趣的活动提取用户特征，并且，本方法将融合非线性遗忘函数来模拟用户的兴趣变化；同时，将用户分为活跃用户和非活跃用户，分别构建用户的特征空间，训练得到用户-活动的评分矩阵；由于评分矩阵的稀疏性，使用矩阵分解法分解用户-活动评分矩阵，获得用户和活动的潜在特征，根据用户对目标活动的喜爱值排序，推荐最有可能参与目标活动的Top-K用户列表。

本发明包括以下步骤：

步骤一：获取数据集；由于缺乏公开的EBSNs数据集，通过网络爬虫技术从豆瓣同城网站中获取北京地区一年的活动数据和用户数据，对原始数据进行清洗，去除掉缺少字段和错误的数据。将真实的用户参与和感兴趣的活动数据进行标注。

步骤二：特征提取；将活动数据分为活动文本数据和活动上下文数据，对活动文本数据进行嵌入，得到文本特征表示；活动上下文数据主要包括活动的时空数据和参与成本，提取活动举办时间、地点和费用特征。从用户历史参与的活动和感兴趣的活动中，提取用户的偏好，由于用户各个时期对参与活动的权重不同，利用非线性遗忘函数模拟用户兴趣偏好的变化，根据用户交互的活动，计算用户的特征偏好。

步骤三：社交网络构建；构建用户和活动组织者以及用户之间的社交关系。在豆瓣同城网站中不存在显示的用户之间的好友关系，本方法根据用户存在的共同行为数据构建用户社交网络，如果两个用户存在共同参与或感兴趣的活动，且他们加入共同的兴趣小组，则认为这两个用户之间存在共同的兴趣偏好。

步骤四：多粒度特征融合；根据步骤二中得到的用户特征，构建用户特征权重；将步骤三中得到的用户社交网络，将用户的兴趣偏好融合到用户特征权重模型中；由于不同活跃度用户之间存在明显的行为差异，按照用参与过活动的数量，将用户分为活跃用户和非活跃用户，对不同活跃度的用户分别构建用户的特征空间。

步骤五：活动推荐；计算用户对目标活动的喜爱值，同时由于用户-活动评分矩阵的稀疏性，使用矩阵分解模型对评分矩阵进行分解，得到潜在的用户特征和活动特征，计算用户对目标活动的偏好值，根据偏好值进行排序，将评分最高的Top-K用户列表推荐给活动组织者。

与现有的活动推荐技术相比，本发明有以下技术优势：

1)引入用户的多重社交关系，从活动属性、活动上下文和用户社交关系三方面因素提取用户的多重特征，更准确地对用户的休闲偏好进行建模；

2)在提取用户特征偏好时，利用非线性遗忘函数用户偏好随时间的变化，准确提取用户在不同时期交互活动的权重。

3)将用户分为活跃用户和非活跃用户，为活跃用户和非活跃用户分别学习特征参数，以解决不同活跃度的用户之间的行为差异问题和冷启动问题。

附图说明

图1是本发明所设计方法的整体流程图。

图2是本发明所设计的基于多粒度特征融合的活动推荐方法模型结构图。

图3是本发明获取的豆瓣同城数据样例图。

图4是本发明所述的用户之间的社交关系示意图。

图5是本发明所述的多粒度特征融合结构图。

图6是活动推荐消融实验F1值变化示意图。

图7是活动推荐消融实验NDCG变化示意图。

具体实施方式

以下将结合具体实施例子，并参照附图，对本发明进行进一步的细化说明。

本发明所设计的一种基于多粒度特征融合的活动推荐方法，方法整体流程图如图1所示，模型结构图如图2所示

步骤一：获取数据集

豆瓣同城是中国最大、最齐全的线下活动社区，豆瓣同城聚焦城市休闲活动。由于缺乏公开的豆瓣同城数据集，本发明使用python爬虫技术从豆瓣同城上获取北京市2020年7月-2021年8月之间的活动数据、用户参与活动数据和用户加入兴趣小组的数据。如图3所示，活动包含活动标题、活动标签、活动类型、活动时间、举办位置的坐标、用户参与活动成本和活动组织者等属性。首先对数据进行清洗，去除没有用户参与的和缺失字段的活动数据，一共得到了162469个同城休闲活动、299个兴趣小组、118393位用户。每个用户平均参与4个活动，最多参与了371个活动，平均每个用户加入3个兴趣小组，最多加入了39个小组。

步骤二：特征提取

根据活动的属性将活动数据分为活动内容和活动上下文数据，活动内容由标题、标签、类型和描述四个部分组成，均为文本数据。其中活动标题、标签和描述是由活动组织者自己定义，活动类型由活动组织者在13种类型中进行选择，每个活动只能设定一种类型。活动上下文包括活动举办时间、活动举办地点和参与活动的费用。

通常情况下，用户的兴趣会随着时间的推移而发生变化，用户近期参加的活动最能反映出用户当前的兴趣偏好。因此，在计算用户对活动内容的偏好时引入非线性遗忘函数能够更准确地计算用户当前的偏好。本发明将用户对历史活动e的遗忘系数定义为：

其中t_e为用户参与活动e的举办时间，t_min为用户所有历史活动的最早举办时间，t_max为用户所有历史活动的最晚举办时间，α为遗忘函数的参数，当α＝1时表示完全非线性遗忘，当α＝0时表示未遗忘，当0<α<1时表示部分遗忘，α越大意味着用户的遗忘速度越快。本发明中α取0.6。

活动内容是用户决定是否参与活动的主要影响因素。由于活动标题、标签和描述都是文本，且是用户自定义的，本发明将这三个部分合并成一个文本，去除文本中的停用词和标点符号，使用LDA主题模型提取文本主题向量。利用JS散度计算目标活动与历史活动的文本相似度，引入遗忘函数作为JS散度的权重，得到用户对目标活动i的文本偏好如下：

其中θ_e和θ_i分别代表历史活动e和目标活动i的主题向量，U_p为用户历史交互的活动集合，t_e为历史活动e的举办时间，h(t_e)为历史活动e的遗忘系数。

由于活动类型是固定的13种类型之一，本方法采用one-hot编码对活动类型进行编码，同样引入遗忘函数作为余弦相似度的权重，历史活动举办时间越邻近，其权重便越大。得到用户对目标活动i的类型偏好如下：

其中T_e和T_i分别代表历史活动e和目标活动i的类型编码。

活动上下文主要包括活动时间、活动地点和活动费用。活动举办时间在一周、一天内呈现周期性规律，因此，把活动时间特征再细分为周-日和日-时特征两种。

由于一个活动可能会持续多天，跨越工作日和周末，因此将一周分为工作日(周一到周五)和周末(周六、周日)，将活动e的周-日特征定义为该活动在工作日和周末举行的天数，表示为一个二元组D_e；使用余弦相似度计算目标活动与历史活动的周-日特征相似度，得到用户对目标活动i的周-日特征偏好：

其中|U_p|代表用户参加的历史活动的数量，D_i为目标活动i的周-日特征二元组。

将活动的开始时间记作日-时特征，使用高斯函数计算目标活动与历史活动的日-时相似度，得到用户对目标活动i的日-时特征偏好:

其中

为自然对数的底数，B_i为目标活动i的日-时特征

使用欧氏距离函数计算目标活动与历史活动的空间相似度，得到用户对目标活动i的空间偏好如下：

其中,L_i和L_e分别表示目标活动和历史活动的位置，d(L_i,L_e)²表示为L_i和L_e之间的欧氏距离。

活动的参与费用也会影响用户参与活动的意愿，将活动费用归一化后，作为活动的费用特征使用核密度估计法计算活动的成本相似度，得到用户对目标活动i的费用偏好:

其中，C_i和C_e分别代表目标活动和历史活动的参与成本，K(C_i,C_e)为C_i和C_e的核密度估计值。

步骤三：社交网络构建

如图4所示，本发明构建的用户之间的社交关系图，其中包括用户和活动组织者、用户之间和用户参与兴趣小组的关系。

用户和组织者之间的关系包括关注关系和偏好关系。本发明将用户与组织者的关注关系定义为用户关注了某个活动组织者。这表明用户对该组织者组织的活动有较为持续的兴趣。若用户关注了某位组织者，则关注特征为1，否则为0。用户对组织者的偏好关系定义为用户多次参加了其组织的活动。这表明用户很有可能会参加该组织者组织的下一次活动，将用户对组织者的偏好特征定义为用户参与该活动组织者的活动数量。

用户的活动决策会受到其好友的影响。本发明认为如果两个用户加入了同一个兴趣小组，且参与过相同的活动或对相同的活动感兴趣，那么他们之间可能存在潜在的好友关系。

计算用户之间的关系权重。将用户i和用户j之间的关系权重定义为W_ij，num_ij为用户i和用户j的关系共同参与或感兴趣的活动的数量，group_ij为用户i和用户j共同加入的兴趣小组的数量。

将每个用户看作一个节点，建立用户社交关系图，运用重启随机游走算法生成用户随机游走序列。用户节点随机游走过程如下：

随机游走的初始节点R₀为用户节点u_i，R_k为随机游走的第k步所到达的节点，W为由公式8计算得出的用户之间的权重关系W_ij组成的矩阵。d的取值范围为0～1之间，表示进行下一步游走的概率，而(1-d)代表回到起始节点的概率，此处的d设置为0.85，依次生成每个节点的随机游走序列，然后对每个节点的随机游走序列进行编码。

使用余弦相似度计算用户u_i和各个节点的相似度，得到和用户u_i相似度最高的前5个节点选取与目标用户u_i最亲近的5个用户节点，代表与用户偏好最接近的好友，计算这5个好友对目标活动的平均偏好值，得到用户社交特征：

其中

代表用户u_i的5个最亲近好友的集合，preference(u,e_i)表示利用步骤二中的f₁～f₆的特征计算好友u对目标活动e_i的偏好值，其中各个特征的权重由GBRT模型训练得到。

步骤四：多粒度特征融合

由于不同活跃度的用户行为差异较大，且非活跃用户因参与活动较少而存在冷启动问题，因此从提高非活跃用户预测准确度的角度出发，将用户分为活跃用户和非活跃用户。我们将2020年07月-2021年6月之间举办的活动数据作为训练数据集，使用GBRT算法对这两类用户分别进行训练，确定用户特征空间中的各个特征权重，得到活跃用户和非活跃用户的特征权重模型。

将训练数据集整理得到所有用户-活动对D(u,e)、活跃用户集合U_active和非活跃用户集合U_inactive、所有活动集合E、组织者集合O和所有用户集合U。首先，从E中提取目标活动开始前，用户u_i参与过的所有历史活动

和用户是否参与目标活动标签l，当用户反馈想参加或感兴趣时，l为1，否则为0。如图5所示，计算用户的历史活动分别计算用户对目标活动的内容偏好f₁～f₂，对目标活动的上下文偏好f₃～f₆，f₁～f₆组成用户对活动的偏好F_e；在步骤三中，从组织者集合O中提取活动组织者o_i，计算用户u_i对活动组织者o_i的偏好，构成特征F_o；并且，从U中提取出用户u_i的5个最亲密的好友集合

计算用户好友对目标活动的偏好程度，获得用户对于目标活动的偏好特征F_s；最后把三组特征F_e、F_o、F_s和标签l拼接加入到数据集，使用GBRT算法进行训练得到用户特征权重模型Model_GBRT。

步骤五：活动推荐

推荐最有可能参与目标活动的用户列表。将测试数据集整理得到用户集U、新发布的活动集合E_new、活动组织者集合O和步骤四中得到的Model_GBRT。首先，根据步骤二依次提取新活动e_i的内容特征和上下文特征

再根据步骤三从用户集U中提取每个用户u_j对新活动组织者

的偏好特征

最后提取用户的好友关系对新活动e_i的偏好特征

使用Model_GBRT计算用户对新活动e_i的偏好值，组成用户-活动评分矩阵M。由于大多数用户不会参与太多的活动，每个活动可能只获得少量的用户反馈，导致用户-活动评分矩阵出现“数据稀疏”和“数据倾斜”问题，使用矩阵分解法分解评分矩阵，使用随机梯度下降法优化矩阵分解结果，计算用户对新活动的偏好值矩阵。按照用户对活动的预测值进行排序，算法输出最有可能参与新活动e_i的Top-K用户列表。

实验结果与分析

将2021年7月-2021年8月之间的活动作为测试数据集对推荐的准确率进行评估。本发明使用机器学习评价指标F1值和归一化折损累计增益(NDCG)进行评估。

F1值是精确度和召回率的调和平均值，可以综合评价推荐模型的性能。

精确率和召回率由TP(真阳性)、FP(假阳性)和FN(假阴性)计算得到。精确率是指被推荐参加活动的用户中真正参与活动的概率。

召回率指在实际参加活动的用户中，被推荐参与活动的用户占实际参与活动用户的比例。

NDCG用于反映推荐列表先后顺序的优劣，可以评估推荐列表和真实列表的排序关联度，NDCG的数值越大，表示推荐的效果越好。

其中NDCG_e为推荐活动e的折损累计增益，E_new为新发布的活动集合。

将本发明所提出的模型与常用的活动推荐模型进行对比，选择常用的活动推荐模型MP、COBM、LBTM作为基础模型。MP是以用户参与活动的数量作为评价用户活跃的指标，将近期最活跃的用户推荐给活动组织者；COBM针对新活动推荐的冷启动问题，根据活动内容提取用户的偏好，结合活动组织者、参与者的关系和活动的位置进行推荐；LBTM是从用户参与过的历史活动中提取活动的内容、位置和时间特征，得到相似的活动，再根据时间特征从相似的活动中提取用户计算偏好值。

将本发明和以上的三种基线方法应用于相同的豆瓣同城数据集中，并对推荐模型的性能进行比较。由表1可以看出。随着K的数量增加，F1值在逐步升高。然而无论K取值为多少，本发明的F1值始终高于其他模型。

表1本发明和基线推荐模型F1值比较

如表2所示，通过NDCG来评估推荐用户序列与真实参与活动的用户列表之间的关联度。本发明模型的NDCG明显高于其他模型，说明推荐用户列表的关联度与真实参与活动的用户有更强的关联性。

表2本发明和基线推荐模型NDCG比较

为了验证本发明引入的用户活跃度分类、用户社交特征和用户偏好随时间的变化等关键特征的必要性，本发明分别舍弃以上特征进行了消融实验：Ours-c为不区分用户活跃度进行推荐、Ours-s为不考虑用户社交特征进行推荐、Ours-f为特征提取时不考虑用户偏好随时间变化进行推荐。仍然采用F1值和NDCG指标进行评价，将消融实验模型与本发明模型进行对比。

如图6所示，Ours-c的F1值相对Ours-s、Ours-f更低，说明用户活跃度特征相对于其他两个特征而言，对于提升推荐系统准确率最为重要。当K大于15时，F1值从高到底排序分别为Ours、Ours-f、Ours-s、Ours-c，用户活跃度分类对F1值的影响最大。无论K为多少，Ours的NDCG始终大于缺少关键因素的其他模型，说明引入用户活跃度分类、用户社交关系和用户兴趣变化特征对于优化推荐列表作用显著。

综上所述，本发明所设计的活动推荐方法从活动内容、活动上下文和用户社交三个方面提取用户偏好，在提取活动内容特征时引入非线性遗忘函数来模拟用户近期的活动偏好；引入用户与组织者以及用户与用户之间的社交关系来获取目标用户的偏好；同时对不同活跃度的用户分别构建的特征权重。使用三个常用的基准方法和本发明进行实验对比，结果也表明了本发明所提出的活动推荐方法获得了优异的推荐性能。

Claims

1.一种基于多粒度特征融合的活动推荐方法，其特征在于，包括如下步骤：

步骤一：获取数据集；通过网络爬虫技术获取活动数据和用户数据，并作为活动推荐方法的原始数据；对原始数据进行清洗，去除掉缺少字段和错误的数据；将真实的用户参与和感兴趣的活动数据进行标注；

步骤二：特征提取；将活动数据分为活动文本数据和活动上下文数据，对活动文本数据进行嵌入，得到文本特征表示；活动上下文数据包括时空数据和参与成本，提取活动举办时间、地点和费用特征；从用户历史参与的活动和感兴趣的活动中，提取用户的偏好，由于用户各个时期对参与活动的权重不同，利用非线性遗忘曲线模拟用户兴趣偏好的变化，根据用户参与的活动特征，计算用户的特征偏好；

步骤三：社交网络构建；构建用户和活动组织者以及用户之间的社交关系；在网站中不存在显示的用户之间的好友关系，根据用户存在的共同行为数据构建用户社交网络，如果两个用户存在共同参与或感兴趣的活动，且加入共同的兴趣小组，则认为这两个用户之间存在共同的兴趣偏好；

步骤四：多粒度特征融合；根据步骤二中得到的用户特征，构建用户特征权重；将步骤三中得到的用户社交网络，将用户的兴趣偏好融合到用户特征权重模型中；由于不同活跃度用户之间存在明显的行为差异，按照用参与过活动的数量，将用户分为活跃用户和非活跃用户，对不同活跃度的用户分别构建用户的特征空间；

步骤五：活动推荐；计算用户对目标活动的喜爱值，同时由于用户-活动评分矩阵的稀疏性，使用矩阵分解模型对评分矩阵进行分解，得到潜在的用户特征和活动特征，计算用户对目标活动的偏好值，根据偏好值进行排序，将评分最高的用户列表推荐给活动组织者。

2.根据权利要求1所述的一种基于多粒度特征融合的活动推荐方法，其特征在于：步骤二所述的用户非线性遗忘特征提取，具体包括：

用户的兴趣会随着时间的推移而发生变化，用户近期参加的活动最能反映出用户当前的兴趣偏好；在计算用户对活动内容的偏好时引入非线性遗忘函数能够更准确地计算用户当前的活动内容偏好；将用户对历史活动e的遗忘系数定义为：

其中t_e为用户参与活动e的举办时间，t_min为用户所有历史活动的最早举办时间，t_max为用户所有历史活动的最晚举办时间，α为遗忘函数的参数，当α＝1时表示完全非线性遗忘，当α＝0时表示未遗忘，当0<α<1时表示部分遗忘，α越大意味着用户的遗忘速度越快。

3.根据权利要求1所述的一种基于多粒度特征融合的活动推荐方法，其特征在于：步骤三所述的用户潜在社交网络的构建，具体包括：

用户的活动决策会受到其好友的影响；如果两个用户加入了同一个兴趣小组，且参与过相同的活动或对相同的活动感兴趣，那么他们之间可能存在潜在的好友关系；

计算用户之间的关系权重；将用户i和用户j之间的关系权重定义为W_ij，num_ij为为用户i和用户j的关系共同参与或感兴趣的活动的数量，group_ij为用户i和用户j共同加入的兴趣小组的数量；

将每个用户看作一个节点，建立用户社交关系图，运用重启随机游走算法生成用户随机游走序列；用户节点随机游走过程如下：

随机游走的初始节点R₀为用户节点u_i，R_k为随机游走的第k步所到达的节点，W为由计算得出的用户之间的权重关系W_ij组成的矩阵；依次生成每个节点的随机游走序列，然后对每个节点的随机游走序列进行编码。

4.根据权利要求1所述的一种基于多粒度特征融合的活动推荐方法，其特征在于：步骤四所述的用户特征融合，具体包括：

由于不同活跃度的用户行为差异较大，且非活跃用户因参与活动较少而存在冷启动问题，从提高非活跃用户预测准确度的角度出发，将用户分为活跃用户和非活跃用户；

首先，从E中提取目标活动开始前，用户u_i参与过的所有历史活动

和用户是否参与目标活动标签l，当用户反馈想参加或感兴趣时，l为1，否则为0；根据用户的历史活动分别计算用户对目标活动的内容偏好f₁～f₂，对目标活动的上下文偏好f₃～f₆，f₁～f₆，组成用户对活动的偏好F_e；从组织者集合O中提取活动组织者o_i，计算用户u_i对活动组织者o_i的偏好，构成特征F_o；最后，从U中提取出用户u_i的5个最亲密的好友集合

计算用户好友对目标活动的偏好程度，获得用户对于目标活动的偏好特征F_s；最后把三组特征F_e、F_o、F_s和标签l拼接加入到数据集，使用GBRT算法进行训练得到用户特征权重模型。