CN112380426A

CN112380426A - 一种基于图嵌入与用户长短期兴趣融合的兴趣点推荐方法、系统

Info

Publication number: CN112380426A
Application number: CN202011145585.8A
Authority: CN
Inventors: 邹志强; 王兴源; 徐康; 徐淑强; 甘鸿宇
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2020-10-23
Filing date: 2020-10-23
Publication date: 2021-02-19
Anticipated expiration: 2040-10-23
Also published as: CN112380426B

Abstract

本发明公开了一种基于图嵌入与用户长短期兴趣融合的兴趣点推荐方法、系统，包括从基于位置的社交网络中的签到数据中提取兴趣点数据，采用用户轨迹提取算法对用户签到数据进行预处理，提取出用户轨迹数据；通过分析兴趣点数据输入至图嵌入模型中生成最终兴趣点向量表示；采用普通嵌入模型来处理用户ID信息生成用户长期兴趣向量，通过门控循环单元模型来处理用户轨迹数据生成用户短期兴趣向量，将用户长期兴趣向量与用户短期兴趣向量进行融合，得到最终用户兴趣向量；将兴趣点向量表示与用户兴趣向量输入至推荐模型，得到用户前往所有兴趣点的概率分布，取概率最高的K个兴趣点进行推荐，使得本发明以较小的计算代价获得了较高的兴趣点推荐准确率。

Description

一种基于图嵌入与用户长短期兴趣融合的兴趣点推荐方法、系统

技术领域

本发明涉及城市计算中基于位置的社交网络数据挖掘技术领域，尤其涉及一种基于图嵌入与用户长短期兴趣融合的兴趣点推荐方法、系统。

背景技术

城市化的不断推进给予了我们现代化的生活，但如环境污染、交通拥挤，能耗增加和规划落后等问题和挑战也随之而来，如何合理地挖掘与研究城市大数据以解决上述问题也受到越来越多研究人员的重视。随着大数据处理技术、机器学习与深度学习算法的发展，人工智能在大数据预测任务上的优势愈加明显。上海交通大学郑宇教授以城市为背景提出了城市计算的概念，通过城市中获取到的多种异构大数据进行分析、融合，以此来解决在城市化进程中所面临的各种挑战。

随着移动设备，全球定位系统(GPS)和Web2.0技术的迅速发展，基于位置的社交网络 (Location-based Social Networks,LBSNs)逐渐在人们的日常生活中普及。与传统的社交网络相比， LBSNs不仅包括了人与人之间的联系，还可以共享人们之间的位置信息，使得线上社交和线下社交相结合，用户可以随时分享自己或浏览他人的足迹。目前主流的社交应用(如Twitter、Foursquare、 Gowalla等)都满足LBSNs的主要特性。如Twitter这样的应用每天都在产生TB级别的时空数据，这些数据通常以GPS数据或签到数据(check-in)的形式记录，数据中不仅有一般社交网络所包含的用户与用户之间的朋友关系，还有着时间信息(时间戳等)，空间信息(经纬度)，语义信息(位置类别、评论留言、图片视频等)等信息。这些信息既是个人行为习惯与偏好的体现，也在一定程度上反映了一座城市里人们的生活方式和移动模式。基于以上数据，多种类型的推荐被提出，其中兴趣点推荐为其重要研究方向之一。

发明内容

本发明的目的是提供一种基于图嵌入与用户长短期兴趣融合的兴趣点推荐方法、系统，使得本发明以较小的计算代价获得了较高的兴趣点推荐准确率。

本发明为实现上述发明目的采用如下技术方案：

本发明提供了一种基于图嵌入与用户长短期兴趣融合的兴趣点推荐方法，包括：

从基于位置的社交网络中的签到数据中直接提取兴趣点数据，采用用户轨迹提取算法对用户签到数据进行预处理，提取出用户轨迹数据；

通过分析兴趣点数据，并输入至图嵌入模型中，接着生成最终兴趣点向量表示；

采用普通嵌入模型来处理用户ID信息并生成用户长期兴趣向量，通过门控循环单元模型来处理用户轨迹数据并生成用户短期兴趣向量，将用户长期兴趣向量与用户短期兴趣向量进行融合，得到最终用户兴趣向量；

将最终兴趣点向量表示与最终用户兴趣向量输入至推荐模型中，得到用户前往所有兴趣点的概率分布，取概率最高的K个兴趣点进行推荐。

进一步地，所述用户轨迹提取算法具体包括：

输入一个用户的所有签到记录数据集C＝{C₀，C₁，C₂，...，C_n}，兴趣点ID集合P＝{P₀，P₁，P₂，...，P_n}，其中C代表该用户所有签到数据的集合，C₀，C₁C₂，...，C_n表示该用户的每一条签到记录，P表示签到数据集C对应的兴趣点ID集合，每一条签到记录对应的兴趣点ID记为P₀，P₁，P₂，...，P_n；

输出用户轨迹数据集包括：

a1.对用户签到数据集C进行遍历，设置循环变量i从0到n-1，n表示签到记录的总数，初始时i＝0，C_start＝C₀为起始签到记录，P_start＝P₀为对应的起始兴趣点ID；

a2.从起始签到记录C_start的下一条签到记录C_j开始遍历，设置循环变量从1到n，n表示该用户签到记录总数，初始时j＝1，C_j＝C₁，C_j对应的兴趣点ID为P_j＝P₁；

a3.当j＜n时，计算C_j与C_start之间的时间间隔ΔT，当ΔT＜6h时，跳转至a4，否则跳转至a5；

a4.将签到记录C_j对应的兴趣点ID P_j添加至序列[P_start]中，得到[P_start，P_j]，执行j＝j+1，跳转至 a3：

a5.当i＜n时，执行P_start＝P_i+1，跳转至a3，否则跳转至a6；

a6.计算所有序列的长度，丢弃所有长度小于2的序列，跳转至a7；

a7.计算该用户所有的序列总数，如果序列总数小于5，丢弃该用户所有序列，跳转至a8；

a8.提取每一条轨迹的长度大于2的所有子序列，称为子轨迹。

进一步地，所述兴趣点数据包括下述中至少一种：

兴趣点ID数据、兴趣点名称数据、兴趣点种类数据、兴趣点城市数据。

进一步地，通过分析兴趣点数据，并输入至图嵌入模型中，接着生成最终兴趣点向量表示的方法包括：

b1.根据所有用户轨迹数据形如[P_a，P_a+1，P_a+2，...，P_a+b]建立带权重的兴趣点有向图G＝(P，E)，其中P_a为序列起始兴趣点ID，P_a+b为序列终止兴趣点ID，b为序列长度，G表示兴趣点有向图，P表示有向图中所有兴趣点ID的集合，E表示有向图中所有边的集合，有向图的构建过程示例如下：

P_a→P_a+1，P_a+1→P_a+2，...，P_a+b-1→P_a+b；

P_a→P_a+1表示有向图G中，一条从点P_a指向P_a+1的边，该边P_a→P_a+1属于集合E。

b2.通过随机游走策略，从有向图G中生成序列，作为模型输入之一；

b3.对兴趣点ID，兴趣点名称，兴趣点种类，兴趣点城市分别进行独热编码，初始化各自的特征向量E⁰，E¹，E²，E³以及权重矩阵A；

b4.将各个特征向量乘以各自的权重系数，输入到带权重的Skip-Gram模型中，更新E⁰，E¹，E²，E³，A,取Skip-Gram模型中间的隐层向量表示作为所有兴趣点的向量表示。

进一步地，采用普通嵌入模型来处理用户ID信息并生成用户长期兴趣向量的方法包括：

建立用户长期兴趣向量生成模型：

输入：用户轨迹数据集中的用户ID数据集U＝{U₁,U₂,U₃,…,U_n},U₁,U₂,U₃,…,U_n为每个用户对应ID；

输出：用户长期兴趣向量；

对用户ID进行独热编码，形成初始特征向量；

将用户初始特征向量输入Embedding普通嵌入模型中，生成相较于独热编码维度更低，表达含义更加丰富的用户Embedding向量，即用户长期兴趣向量。

进一步地，通过门控循环单元模型来处理用户轨迹数据并生成用户短期兴趣向量的方法包括：

建立用户短期兴趣向量生成模型：

建立基于门控循环单元的深度神经网络模型；

将经过图嵌入模型得到的兴趣点向量输入模型，经过全连接层以及门控循环单元层进行训练，将门控循环单元最后一个状态的隐向量作为用户短期兴趣向量的初步输出，再经过全连接层对向量进一步处理后得到最终用户短期兴趣向量。

进一步地，将用户长期兴趣向量与用户短期兴趣向量直接拼接，得到最终用户兴趣向量。

进一步地，基于门控循环单元的深度神经网络模型具体包括：

第一部分：输入数据为用户ID，包括实体嵌入层，嵌入层维度为Num_User，输出维度为100 的数据，此为用户长期兴趣向量初步表示；

第二部分：将第一部分得到的用户长期兴趣向量初步表示经过一个包含50个神经元节点的隐藏层，输入维度为100，经过ReLU激活函数处理，得到维度为50的数据，此为最终用户长期兴趣向量；

第三部分：输入数据为用户轨迹数据，根据用户轨迹数据中的兴趣点ID去查找对应的兴趣点向量，每个兴趣点向量维度为50；

第四部分：将第三部分的输出作为输入，是一个输入维度为50，包含了256个神经元节点的隐藏层的门控循环单元，取序列最后一个元素的隐层，输出维度为256的数据；

第五部分：包含256个神经元节点的隐藏层，经过ReLU激活函数处理，得到维度为256的数据；

第六部分：包含128个神经元节点的隐藏层，经过ReLU激活函数处理，得到维度为128的数据；

第七部分：包含50个神经元节点的隐藏层，经过ReLU激活函数处理，得到维度为50的数据，此数据即为最终用户短期兴趣向量；

第八部分：将第二部分长度为50的用户长期兴趣向量和第七部分长度为50的用户短期兴趣向量直接拼接，得到长度为100的用户最终兴趣向量表示。

本发明还提供了一种基于图嵌入与用户长短期兴趣融合的兴趣点推荐系统，包括：

签到数据预处理模块：用于从基于位置的社交网络中的签到数据中直接提取兴趣点数据，采用用户轨迹提取算法对用户签到数据进行预处理，提取出用户轨迹数据；

图嵌入模块：用于通过分析兴趣点数据，并输入至图嵌入模型中，接着生成最终兴趣点向量表示；

长短期兴趣融合模块：用于采用普通嵌入模型来处理用户ID信息并生成用户长期兴趣向量，通过门控循环单元模型来处理用户轨迹数据并生成用户短期兴趣向量，将用户长期兴趣向量与用户短期兴趣向量进行融合，得到最终用户兴趣向量；

推荐模块：用于将最终兴趣点向量表示与最终用户兴趣向量输入至推荐模型中，得到用户前往所有兴趣点的概率分布，取概率最高的K个兴趣点进行推荐。

本发明的有益效果如下：

本发明的兴趣点推荐方法融合了签到数据、兴趣点数据、用户数据等多源信息数据，充分挖掘与勘探了对兴趣点推荐有影响的因素，建立了基于长短期兴趣融合的深度学习模型，使得本发明以较小的计算代价获得了较高的兴趣点推荐准确率。

附图说明

图1为根据本发明实施例提供的流程图；

图2为根据本发明实施例提供的用户轨迹提取算法流程图；

图3为根据本发明实施例提供的基于门控循环单元(GRU)模型结构图。

具体实施方式

下面结合具体实施例对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

如图1所示为一种基于图嵌入与用户长短期兴趣融合的兴趣点推荐方法、系统，包括：

a.用户签到数据预处理模块

从基于位置的社交网络中直接提取如兴趣点ID(Identity,身份标识码，这里指兴趣点在此社交网络中的唯一编码),兴趣点名称等兴趣点数据，另采用用户轨迹提取算法对用户连续签到数据进行预处理，提取出用户轨迹数据；

b.图嵌入生成兴趣点向量模块

通过分析包括兴趣点ID数据和兴趣点名称数据，兴趣点种类数据，兴趣点城市数据这样的辅助信息，分别将其输入至图嵌入模型中，模型输出即为此社交网络中所有兴趣点的向量表示。

c.用户长短期兴趣向量融合模块

首先采用普通嵌入模型来处理用户ID信息而生成用户长期兴趣向量，接着通过门控循环单元 (GRU，Gated Recurrent Unit)模型来处理用户轨迹数据而生成用户短期兴趣向量，接着将用户长期兴趣向量与用户短期兴趣向量进行融合，得到最终用户兴趣向量。

d.输出推荐列表模块

将最终兴趣点向量表示与最终用户兴趣向量输入至推荐模型中，输出用户前往所有兴趣点的概率分布，取概率最高的K个兴趣点进行推荐，K是一个由用户指定的常数。

如图2所示，所述用户轨迹提取算法具体包括：

进一步的，所述用户轨迹提取算法具体包括：

输入：一个用户的所有签到记录数据集C＝{C₀，C₁，C₂，...，C_n}，兴趣点ID集合P＝{P₀，P₁，P₂，...，P_n}。其中C代表该用户所有签到数据的集合，C₀，C₁C₂，...，C_n表示该用户的每一条签到记录；P表示签到数据集C对应的兴趣点ID集合，每一条签到记录对应的兴趣点ID记为P₀，P₁，P₂，...，P_n。

输出：用户轨迹数据集

a2.从起始签到记录C_start的下一条签到记录C_j开始遍历，设置循环变量从1到n，n表示该用户签到记录总数，初始时j＝1，C_j＝C₁；C_j对应的兴趣点ID为P_j＝P₁；

a4.将签到记录C_j对应的兴趣点ID P_j添加至序列[P_start]中，得到[P_start，P_j]，执行j＝j+1，跳转至 a3；

a5.当i＜n时，执行P_start＝P_i+1，跳转至a3，否则跳转至a6；

a6.计算所有序列的长度，丢弃所有长度小于2的序列；跳转至a7；

a7.计算该用户所有的序列总数，如果序列总数小于5，丢弃该用户所有序列。跳转至a8；

a8.对用户所有轨迹进行数据增强，即提取每一条轨迹的长度大于2的所有子序列，称为子轨迹。

进一步的，所述b.图嵌入生成兴趣点向量包括：

b1.根据所有用户轨迹数据形如[P_a，P_a+1，P_a+2，...，P_a+b]建立带权重的兴趣点有向图G＝(P，E)，其中P_a为序列起始兴趣点ID，P_a+b为序列终止兴趣点ID，b为序列长度，G表示兴趣点有向图，P表示有向图中所有兴趣点ID的集合，E表示有向图中所有边的集合；有向图的构建过程示例如下：

P_a→P_a+1，P_a+1→P_a+2，...，P_a+b-1→P_a+b；

b2.通过随机游走(Random Walk，一种常用的构建序列的方法)策略，从有向图G中生成序列，作为模型(后续模块推荐模型)输入之一；

b3.对兴趣点ID，兴趣点名称，兴趣点种类，兴趣点城市分别进行独热编码(即One-Hot编码，一种经典的有效编码)，初始化各自的特征向量E⁰，E¹，E²，E³以及权重矩阵A；

b4.将各个特征向量乘以各自的权重系数，输入到带权重的Skip-Gram模型(一种广泛使用地向量生成模型)中，更新E⁰，E¹，E²，E³，A，取Skip-Gram模型中间的隐层向量表示作为所有兴趣点的向量表示。

进一步的，所述c.用户长短期兴趣向量融合包括：

c1.建立用户长期兴趣向量生成模型：

输入：用户轨迹数据集中的用户ID(Identity，身份标识码，这里指用户在此社交网络中的唯一编码)数据集U＝{U₁，U₂，U₃，...，U_n}，U₁，U₂，U₃，...，U_n指用户对应的ID

输出：用户长期兴趣向量

1.1)对用户ID进行独热编码，形成初始特征向量；

1.2)将用户初始特征向量输入Embedding普通嵌入模型中，生成相较于独热编码维度更低，表达含义更加丰富的用户Embedding向量，即用户长期兴趣向量。

c2.建立用户短期兴趣向量生成模型：

2.1)建立基于门控循环单元(GRU)的深度神经网络模型

将经过图嵌入模型得到的兴趣点向量输入模型，经过全连接层以及门控循环单元(GRU)层进行训练，将门控循环单元最后一个状态的隐向量作为用户短期兴趣向量的初步输出，再经过全连接层对向量进一步处理后得到最终用户短期兴趣向量。

2.2)用户长短期兴趣向量融合

将用户长期兴趣向量与用户短期兴趣向量直接拼接，得到最终用户兴趣向量。

进一步的，所述d.输出推荐列表

得到上述兴趣点向量表示以及用户兴趣向量表示之后，对二者进行内积计算，得到的数值经过Softmax函数后输出一个该用户可能前往所有兴趣点的概率。

在上述模型构建后，训练该模型，其中设置训练样本的批大小为512，选用CrossEntropy交叉熵损失函数，通过Adam优化算法进行参数寻优，其中学习率为0.001，衰减项1e-08，动量0.9，迭代次数设置为200；

进一步的，如图3所示，所述基于门控循环单元(GRU)的深度神经网络包括：

第一部分：输入数据为用户ID，包括实体嵌入层，嵌入层维度为Num_User(Num_User为用户总数)，输出维度为100的数据，此为用户长期兴趣向量初步表示。

第二部分：将第一部分得到的用户长期兴趣向量初步表示经过一个包含50个神经元节点的隐藏层，输入维度为100，经过ReLU激活函数处理，得到维度为50的数据。

此为最终用户长期兴趣向量。

第三部分：输入数据为用户轨迹数据，根据用户轨迹数据中的兴趣点ID去查找对应的兴趣点向量，每个兴趣点向量维度为50。

第四部分：将第三部分的输出作为输入，是一个输入维度为50，包含了256个神经元节点的隐藏层的门控循环单元，取序列最后一个元素的隐层，输出维度为256的数据。

第五部分：是一个包含256个神经元节点的隐藏层，经过ReLU激活函数处理，得到维度为256 的数据；

第六部分：是一个包含128个神经元节点的隐藏层，经过ReLU激活函数处理，得到维度为128 的数据；

第七部分：是一个包含50个神经元节点的隐藏层，经过ReLU激活函数处理，得到维度为50 的数据。此数据即为最终用户短期兴趣向量。

相对于现有技术，在本发明中兴趣点推荐的方法融合了轨迹数据、兴趣点数据、用户数据等，充分挖掘与提取了对兴趣点推荐有影响的因素，融合了兴趣点及其各种辅助信息，得到了表达能力丰富的兴趣点表征；另一方面，详细地考量了用户的行为模式与个性化特征，将用户长短期兴趣很好地融合在了一起，得到了蕴含丰富信息的用户兴趣表征。利用上述兴趣点表征和用户兴趣向量表征而进行的兴趣点推荐方法在缓解冷启动、数据稀疏的问题的同时，能够得到较高的推荐准确率。

由于当前研究兴趣点推荐问题中，对于兴趣点表征的建模，仅仅停留在兴趣点本身的ID属性这一特征上，其所构建出的兴趣点表征表达含义十分有限；本发明不仅采用了兴趣点ID这一特征，还采用了兴趣点名称、兴趣点种类、兴趣点城市等针对兴趣点的辅助信息，同时采用了还考虑到了不同辅助信息对于模型表征的重要程度不一致，采用了加权图嵌入的方法，很好地将兴趣点ID信息和兴趣点辅助信息融合，其所构建出的兴趣点表征表达能力十分丰富，有利于后续计算使用。

由于从人的角度分析，用户的兴趣分为两种，一种是用户长期兴趣，即用户保持了很久的兴趣或者生活习惯，是其固有的兴趣，不会轻易发生改变；另一种是用户短期兴趣，即用户在一段签到轨迹中所表现出来的兴趣趋向，这样的兴趣趋向可能在其下一段签到轨迹之中就会发生改变，是其容易发生改变的兴趣。本发明提出了一种用户长短期兴趣融合的模型，首先对用户长短期兴趣向量分别建模，再使用特定的方法将二者融合，由于该模型比较全面地挖掘了用户的兴趣，其所得到的最终用户兴趣表征具有比较丰富的表达能力，有利于进一步的计算。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于图嵌入与用户长短期兴趣融合的兴趣点推荐方法，其特征在于，包括：

2.根据权利要求1所述的一种基于图嵌入与用户长短期兴趣融合的兴趣点推荐方法，其特征在于，所述用户轨迹提取算法具体包括：

输出用户轨迹数据集包括：

a4.将签到记录C_j对应的兴趣点ID P_j添加至序列[P_start]中，得到[P_start，P_j]，执行j＝j+1，跳转至a3；

a5.当i＜n时，执行P_start＝P_i+1，跳转至a3，否则跳转至a6；

a8.提取每一条轨迹的长度大于2的所有子序列，称为子轨迹。

3.根据权利要求1或2所述的一种基于图嵌入与用户长短期兴趣融合的兴趣点推荐方法，其特征在于，所述兴趣点数据包括下述中至少一种：

4.根据权利要求3所述的一种基于图嵌入与用户长短期兴趣融合的兴趣点推荐方法，其特征在于，通过分析兴趣点数据，并输入至图嵌入模型中，接着生成最终兴趣点向量表示的方法包括：

P_a→P_a+1，P_a+1→P_a+2，...，P_a+b-1→P_a+b；

b4.将各个特征向量乘以各自的权重系数，输入到带权重的Skip-Gram模型中，更新E⁰，E¹，E²，E³，A，取Skip-Gram模型中间的隐层向量表示作为所有兴趣点的向量表示。

5.根据权利要求1所述的一种基于图嵌入与用户长短期兴趣融合的兴趣点推荐方法，其特征在于，采用普通嵌入模型来处理用户ID信息并生成用户长期兴趣向量的方法包括：

建立用户长期兴趣向量生成模型：

输入：用户轨迹数据集中的用户ID数据集U＝{U₁，U₂，U₃，...，U_n}，U₁，U₂，U₃，...，U_n为每个用户对应ID；

输出：用户长期兴趣向量；

对用户ID进行独热编码，形成初始特征向量；

6.根据权利要求5所述的一种基于图嵌入与用户长短期兴趣融合的兴趣点推荐方法，其特征在于，通过门控循环单元模型来处理用户轨迹数据并生成用户短期兴趣向量的方法包括：

建立用户短期兴趣向量生成模型：

建立基于门控循环单元的深度神经网络模型；

7.根据权利要求6所述的一种基于图嵌入与用户长短期兴趣融合的兴趣点推荐方法，其特征在于，将用户长期兴趣向量与用户短期兴趣向量直接拼接，得到最终用户兴趣向量。

8.根据权利要求6或7所述的一种基于图嵌入与用户长短期兴趣融合的兴趣点推荐方法，其特征在于，基于门控循环单元的深度神经网络模型具体包括：

第一部分：输入数据为用户ID，包括实体嵌入层，嵌入层维度为Num_User，输出维度为100的数据，此为用户长期兴趣向量初步表示；

9.一种基于图嵌入与用户长短期兴趣融合的兴趣点推荐系统，其特征在于，包括：