CN114610960A

CN114610960A - 基于item2vec和向量聚类的实时推荐方法

Info

Publication number: CN114610960A
Application number: CN202210246577.5A
Authority: CN
Inventors: 许良武; 曹阳; 李菲; 李晓明
Original assignee: Sanjiang University
Current assignee: Sanjiang University
Priority date: 2022-03-14
Filing date: 2022-03-14
Publication date: 2022-06-10

Abstract

本发明公开了一种基于item2vec和向量聚类的实时推荐方法，本发明通过用户的行为序列，离线训练item2vec模型获得物品的Embedding向量，近线计算通过用户近期行为结合物品向量生成用户向量，在实时计算中根据用户向量计算与物品向量之间的相似度进行物品推荐，向量相似计算过程中首先对物品向量进行聚类以加快向量检索速度，最终实现快速实时推荐，挖掘推荐的深层次语义关联，精准捕获用户兴趣转换，提升用户的粘度。

Description

基于item2vec和向量聚类的实时推荐方法

技术领域

本发明涉及大数据智能推荐技术领域，特别涉及一种基于item2vec和向量聚类的实时推荐方法。

背景技术

随着信息爆炸时代的到来，对于数以亿计的用户和百万甚至更高数量级的物品，如何快速并准确地把握住用户兴趣的转移，给用户推荐感兴趣的内容，对于电商、资讯等平台而言至关重要。

发明内容

本发明提供了一种基于item2vec和向量聚类的实时推荐方法，本发明通过用户的行为序列，离线训练item2vec模型获得物品的Embedding向量，近线计算通过用户近期行为结合物品向量生成用户向量，在实时计算中根据用户向量计算与物品向量之间的相似度进行物品推荐，向量相似计算过程中首先对物品向量进行聚类以加快向量检索速度，最终实现快速实时推荐，挖掘推荐的深层次语义关联，精准捕获用户兴趣转换，提升用户的粘度。

本发明的上述目的是通过以下技术方案实现的，一种基于item2vec和向量聚类的实时推荐方法，其特征在于，包括：

item2vec算法模型训练获得物品向量：根据用户的行为数据，构建用户行为序列，通过item2vec算法模型训练获得物品向量并保存在另设的物品向量库中；

近线层用户向量计算：接入用户的点击或浏览行为日志实时消息流kafka，保存用户的近期行为序列；将近期的行为记录序列取出，在物品向量库中检索到物品向量，按照公式

, 通过物品向量加权平均计算得到用户向量并保存在另设的用户向量库中，其中，

为从当前时间往前数第i物品的物品向量，n为最近浏览的物品数量，α为时间衰减因子，取值为0-1之间的小数；

物品向量聚类：设定每个类别物品数量的范围，从而确定物品向量聚类的类别数量；设定每一类别的初始聚类中心点，通过kmeans聚类算法进行迭代计算获得每个物品向量所属的类别划分，同时获得每个类别的聚类中心向量，将类别标识写入到另设的物品向量聚类库中；

实时推荐：在用户请求的实施推荐接口中，根据用户ID读取用户向量，根据用户向量对物品向量进行检索，检索时，首先根据用户向量与物品向量各聚类中心向量的相似度确定最接近的一个或多个物品聚类，并在检索到的聚类中进一步检索物品向量；将检索结果按相似度进行倒排序，按照召回数量截取相似度最高物品列表形成推荐召回结果集。

进一步的，在构建用户行为序列时，根据用户在物品上所花费时间选择用户真正喜欢的物品作为用户行为序列。

进一步的，在item2vec模型训练过程中，设定稠密向量的维度k，训练数据集每行是一个用户喜欢的物品有序数据集，训练获得的物品向量进行标准化处理，使得标准化后的向量长度为1。

进一步的，α具体取值根据实验确定，借助AB实验结合CTR/CVR指标来选择相对优选值。

进一步的，设定每个类别物品数量的范围时，分别设定每个类别物品数量的最大值Nmax以及最小值Nmin，物品向量聚类的类别数量M为物品向量的规模除以(Nmax+Nmin)/2。

进一步的，设定每一类别的初始聚类中心点时，初始聚类中心点设定规则为：首先所有样本中最靠近中心的样本点作为第一个类别的初始聚类中心点，然后选择距离第一个初始聚类中心点最远的样本点作为第二个类别的初始聚类中心点，然后再选择距离前两个聚类中心点最短距离最大的点作为第三个初始聚类中心点，以此类推，直至选出所有聚类的初始类聚类中心点。

进一步的，用户向量与物品向量聚类中心点计算相似度的过程，利用多核并行矩阵运算加快检索速度。

本发明主要解决推荐领域挖掘深层次语义关联，快速精准地捕获用户兴趣转移等问题。根据用户的行为数据在item2vec模型离线训练获得物品向量，并对物品向量进行聚类提升检索效率，在近线层通过收集用户近期浏览/播放等行为计算用户向量，最终在实时推荐接口查询用户向量，进行向量检索获得推荐召回结果。本发明的有益效果有：

1．根据用户行为数据在item2vec模型训练获得物品向量，挖掘了物品间深层次语义的关联，在item2vec训练数据构造过程中，考虑剔除浏览时长/播放完整度较低的内容，该部分内容可能是用户误点操作，或者标题党等低质量内容；

2．用户向量计算过程引入时间衰减因子，可以更好地捕获用户兴趣的转移，时间衰减因子通过AB实验结合CTR/CVR等指标选择最优值；

3．将海量的物品向量聚类划分到每个类别接近某个固定常数的规模，使得检索时间复杂度控制在某个可控的常数范围，提升向量检索效率。实时推荐过程中，采用两级检索机制，用户向量检索先寻找到若干个物品向量聚类，然后在这些聚类内进行细粒度检索，一方面可以极大地加快检索效率，同时聚类划分不同聚类可能存在边界问题，在最邻近的若干个聚类内二次检索，最大化地降低漏掉最近邻物品的概率，兼顾检索效率和召回集的效果。

附图说明

图1是本发明的整体系统架构示意图；

图2是本发明中通过item2vec模型训练获得物品向量处理流程图；

图3是本发明中用户向量计算流程图；

图4是本发明中物品向量聚类流程图；

图5是本发明中实时推荐流程图。

具体实施方式

下面结合附图详细说明本发明的具体实施方式。

本发明中，首先根据用户的行为数据，构建用户行为序列，通过item2vec模型离线训练获得物品的Embedding向量并存储到物品向量库，然后针对用户点击行为kafka实时流进行近线计算获得用户的Embedding向量并存储到用户向量库，在实时推荐接口中获取用户向量，通过计算用户向量与物品向量之间的相似度实现推荐召回，物品向量在存储过程中通过聚类算法提升向量检索效率，最终实现根据用户行为序列的实时推荐，很好地挖掘语义的关联，同时精准捕获用户兴趣的转移，带来推荐转化率的提高和用户满意度的提升。整体架构见附图1。

该方案主要有以下四个步骤：

n item2vec算法模型训练获得物品向量

n 近线层用户向量计算

n 物品向量聚类

n 实时推荐模块

一、item2vec算法模型训练获得物品向量

本发明中使用的item2vec算法作为word2vec在推荐领域的模型演进，word2vec是NLP领域的重要算法，使用海量的文本语料库进行训练获得单词深层次语义上的稠密向量表示。意思相近的单词向量在高维语义空间上也接近，而无关的单词在空间上距离也较远。

根据用户的行为数据，构建每个用户的行为序列，在具体的处理过程中，通过一定的规则选择用户真正喜欢的物品作为用户行为序列，对于页面的浏览行为而言，统计该页面用户的平均浏览时长，过滤掉用户浏览时长较短（设置阈值，比如浏览时长低于平均值的0.2倍）；如果是视频播放，则过滤掉播放完整度较低的内容（设置阈值，比如完播率低于0.1，参数可调）等。该部分的内容可能是用户误点击或者标题党等低质量内容，并不能代表用户的真实偏好。

在item2vec模型训练过程中，设定稠密向量的维度k，训练数据集每行是一个用户喜欢的物品有序数据集（即有过行为的物品，按照用户浏览的先后顺序）。

训练获得的物品向量进行标准化处理，使得标准化后的向量长度为1，便于后续的向量相似度检索计算，最终将物品向量保存到物品向量库。item2vec训练获得物品向量流程见附图2。

二、近线层用户向量计算

用户的点击或浏览行为日志实时消息流kafka，通过flink/spark/strom等实时处理框架接入，保存用户的近期行为记录序列。设定一定的窗口大小，比如最近12小时（时间窗口）或者最近的10个浏览行为（数量窗口）等策略，也可以是一些组合策略，其中的数量和时间参数可调。

在实时处理过程中，将近期的行为记录序列取出，分别检索到物品的向量，按照公式1，通过物品向量加权平均计算用户的向量。

（公式1）

在公式1中，

为从当前时间往前数第i物品的向量表示，n为最近浏览的物品数量。α为时间衰减因子，取值为0-1之间的小数，考虑到刚刚浏览的或播放的行为对接下来用户的兴趣偏好影响最大，因此引入时间衰减因子α，即从现在的时间点往前倒推，距离现在越近的行为对后续的影响越大，反之影响越小。α具体取值根据实验确定，借助AB实验结合CTR/CVR等指标来选择相对优选值。用户向量计算的具体处理流程见附图3所示。

三、物品向量聚类

本发明中，推荐召回给用户推荐可能感兴趣的物品，用户向量和物品向量维度相同，召回的过程，即为高维空间向量的快速搜索最近邻的过程。

考虑到物品的规模数百万甚至更多，因此将物品向量通过聚类，将物品向量划分到M个类别。为了确保向量检索效率保持在一个常数的时间复杂度，通常将每个类别限定在固定数量附近，比如每个类别物品数量最多Nmax=2000个，最少不低于Nmin=1000个。因此，聚类的类别数M则为物品的规模除以(Nmax+Nmin)/2。

聚类算法采用kmeans算法，考虑到聚类中心点初始值的设定对聚类效果影响较大，为了保证聚类效果的稳定性，初始聚类中心点设定规则为：首先所有样本中最靠近中心的样本点作为第一个类别的聚类中心点，然后选择距离第一个聚类中心点最远的样本点作为第二个类别的聚类中心点，然后再选择距离前两个聚类中心点最短距离最大的点作为第三个聚类中心点，以此类推，直至选出M个初始聚类中心点。聚类算法迭代后，最终获得每个物品向量所属的类别划分，将类别标识写入到物品向量聚类库中，同时获得每个类别的聚类中心向量。该步骤考虑到性能问题，聚类中心点的设定可以在物品欠采样的基础上完成。具体处理流程见附图4所示。

四、实时推荐模块

在用户请求的实时推荐接口中，根据用户ID读取用户向量，用户向量进行检索时，为了提高检索效率。因此在向量检索过程中，分为两步，第一步找准靶心（即根据用户向量计算与物品向量各聚类中心向量的相似度），考虑到可能存在边界的问题，从而导致遗漏掉大量的近邻点，因此需要寻找若干个聚类；第二步，在上述目标聚类内进一步的向量检索，从而兼顾检索效率和召回集的质量。

用户向量与物品向量聚类中心计算相似度的过程，即向量之间的余弦相似度计算，应充分利用多核并行矩阵运算加快检索速度。计算相似度后，进行倒排序按照召回数量截取相似度最高物品列表。具体处理流程见附图5所示。

为了使本发明的目的、技术方案及优点更加清楚明白，以下以本发明在某短视频平台项目中的应用进行说明：

利用用户的点击、播放等行为数据，构建基于item2vec结合向量聚类的短视频实时推荐方法，包括以下步骤：

步骤1，利用用户点击、播放等行为数据，通过离线计算构建每个用户的行为序列，通过item2vec模型训练获得物品向量，计算流程参考图1。

具体的根据用户播放视频的先后顺序，构成用户行为序列，如下：

用户ID	用户行为序列
		用户1	video_18 video_2 video_7 video__4 video__13 video_6 video_9
用户2	video_65 video_21 video_37 video_6 video_8
		用户3	video_24 video_13 video_6 video_39 video_17 video_26 video_41
用户m	video_17 video_26 video_41 video_24 video_13 video_39

模型训练设定的物品向量维度k值根据实验效果确定，训练后获得的物品向量，后续给用户推荐物品，即为用户向量检索物品向量，计算余弦相似度的过程，考虑到计算方便，需要对向量作标准化处理，如下：

物品ID	物品向量（K维标准化向量）
		video_1	0.02 0.15 0.17 0.03 -0.19 0.31 ... 0.08
video_2	0.27 0.03 -0.14 0.21 -0.14 0.21... 0.11
		video_3	0.02 0.15 0.17 0.03 -0.19 0.31 ... 0.08
video_n	-0.14 0.21 -0.14 0.27 0.03 0.21... -0.03

本实施例中，构建用户行为序列过程中，过滤掉视频播放完整度较低的内容，本实施例完整度设为0.1，即视频播放完整度低于10%。最终对训练获得的用户向量进行标准化处理，将物品向量保存到物品向量库中。物品向量的训练为离线任务，按照模型训练的耗时情况确定训练频率，本实施例中，离线训练任务4小时计算一次，以确保持续不断产生新内容的正常推送。对于刚产生的内容在没有计算出物品向量之前，通过新热内容召回呈现给用户。

步骤2，接入用户视频点击kafka消息流，spark streaming/flink/strom等实时处理框架，维护用户近期行为记录序列。并查询物品向量加权计算用户向量，保存到用户向量库中。

本实施例采用flink实时流处理框架，用户近期行为序列界定为最近24小时且截取最近播放完整度超过20%的10个视频。采用队列方式存储，新播放视频入队列，之前的不再满足条件的视频则出队列。

根据用户行为序列，从物品向量库中查询物品向量，通过加权平均计算用户向量，在加权计算过程中，考虑到刚看的视频对用户当前兴趣偏好关注点的影响较大，而之前较早看过的视频对当前兴趣的影响较小。因此采用时间衰减因子α，为0-1之间的小数，代入

/n公式计算用户向量，其中n表示为最近看过的n个视频，最大为10个，

表示从当前时间点向前第i个视频向量，本实施例中根据实验时间衰减因子α取值为0.9，假设某个用户最近播放视频数为3个，则用户向量为：

+

。通过时间衰减因子，可以突出最新播放过视频的影响，较好地捕获用户兴趣的转移。

步骤3，物品规模动辄数十万甚至百万量级，给用户推荐物品的过程中，涉及用户向量与物品向量相似度的计算。如此庞大规模的向量检索造成极大的服务延迟，是实时推荐无法接受的。本实施例中，将海量的物品向量聚类成若干个类别，保证每个类别控制在最多2000个，最少1000个物品，这样向量检索的时间复杂度始终是可控的常量范围。将聚类后的物品向量存储到物品向量聚类库中，并存储不同聚类中心的向量，用于后续高效检索。

步骤4，在用户推荐接口消息中，本实施例通过flink任务接入消息流，首先根据用户ID在用户向量库中查询到用户向量，然后使用用户向量与物品向量聚类后的聚类中心向量计算相似度，取相似度最高的Top5的聚类（这一步认为是初步检索，寻找到物品向量聚类的靶心，具体选取聚类的个数可以调整），然后进行第二轮细粒度向量检索。相比全量的物品向量检索，通过本实例的聚类后，两级向量检索，可以将检索的数量从百万量级降至数千个，极大地加快了检索速度，同时在多个聚类内检索，可以确保召回率，减少聚类边界问题导致的漏掉最近邻的概率。具体实施过程中，通过向量矩阵运算加速计算向量相似度，根据相似度进行倒排序，截取TopN作为最终的推荐召回结果。

以上所述的仅是本发明的优选实施方式，应当指出，对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种基于item2vec和向量聚类的实时推荐方法，其特征在于，包括：

实时推荐：在用户请求的实施推荐接口中，根据用户ID读取用户向量，根据用户向量对物品向量进行检索，检索时，采用两级检索机制加快检索效率，首先根据用户向量与物品向量各聚类中心向量的相似度确定最接近的一个或多个物品聚类，并在检索到的聚类中进一步检索物品向量；将检索结果按相似度进行倒排序，按照召回数量截取相似度最高物品列表形成推荐召回结果集。

2.根据权利要求1所述的基于item2vec和向量聚类的实时推荐方法，其特征在于，在构建用户行为序列时，根据用户在物品上所花费时间选择用户真正喜欢的物品作为用户行为序列。

3.根据权利要求1所述的基于item2vec和向量聚类的实时推荐方法，其特征在于，在item2vec模型训练过程中，设定稠密向量的维度k，训练数据集每行是一个用户喜欢的物品有序数据集，训练获得的物品向量进行标准化处理，使得标准化后的向量长度为1。

4.根据权利要求1所述的基于item2vec和向量聚类的实时推荐方法，其特征在于，α具体取值根据实验确定，借助AB实验结合CTR/CVR指标来选择相对优选值。

5.根据权利要求1所述的基于item2vec和向量聚类的实时推荐方法，其特征在于，设定每个类别物品数量的范围时，分别设定每个类别物品数量的最大值Nmax以及最小值Nmin，物品向量聚类的类别数量M为物品向量的规模除以(Nmax+Nmin)/2。

6.根据权利要求1所述的基于item2vec和向量聚类的实时推荐方法，其特征在于，设定每一类别的初始聚类中心点时，初始聚类中心点设定规则为：首先所有样本中最靠近中心的样本点作为第一个类别的初始聚类中心点，然后选择距离第一个初始聚类中心点最远的样本点作为第二个类别的初始聚类中心点，然后再选择距离前两个聚类中心点最短距离最大的点作为第三个初始聚类中心点，以此类推，直至选出所有聚类的初始类聚类中心点。

7.根据权利要求1所述的基于item2vec和向量聚类的实时推荐方法，其特征在于，用户向量与物品向量聚类中心点计算相似度的过程，利用多核并行矩阵运算加快检索速度。