CN112380426B - 一种基于图嵌入与用户长短期兴趣融合的兴趣点推荐方法、系统 - Google Patents

一种基于图嵌入与用户长短期兴趣融合的兴趣点推荐方法、系统 Download PDF

Info

Publication number
CN112380426B
CN112380426B CN202011145585.8A CN202011145585A CN112380426B CN 112380426 B CN112380426 B CN 112380426B CN 202011145585 A CN202011145585 A CN 202011145585A CN 112380426 B CN112380426 B CN 112380426B
Authority
CN
China
Prior art keywords
user
interest
data
vector
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011145585.8A
Other languages
English (en)
Other versions
CN112380426A (zh
Inventor
邹志强
王兴源
徐康
徐淑强
甘鸿宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202011145585.8A priority Critical patent/CN112380426B/zh
Publication of CN112380426A publication Critical patent/CN112380426A/zh
Application granted granted Critical
Publication of CN112380426B publication Critical patent/CN112380426B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于图嵌入与用户长短期兴趣融合的兴趣点推荐方法、系统,包括从基于位置的社交网络中的签到数据中提取兴趣点数据,采用用户轨迹提取算法对用户签到数据进行预处理,提取出用户轨迹数据;通过分析兴趣点数据输入至图嵌入模型中生成最终兴趣点向量表示;采用普通嵌入模型来处理用户ID信息生成用户长期兴趣向量,通过门控循环单元模型来处理用户轨迹数据生成用户短期兴趣向量,将用户长期兴趣向量与用户短期兴趣向量进行融合,得到最终用户兴趣向量;将兴趣点向量表示与用户兴趣向量输入至推荐模型,得到用户前往所有兴趣点的概率分布,取概率最高的K个兴趣点进行推荐,使得本发明以较小的计算代价获得了较高的兴趣点推荐准确率。

Description

一种基于图嵌入与用户长短期兴趣融合的兴趣点推荐方法、 系统
技术领域
本发明涉及城市计算中基于位置的社交网络数据挖掘技术领域,尤其涉及一种基于图嵌入与用户长短期兴趣融合的兴趣点推荐方法、系统。
背景技术
城市化的不断推进给予了我们现代化的生活,但如环境污染、交通拥挤,能耗增加和规划落后等问题和挑战也随之而来,如何合理地挖掘与研究城市大数据以解决上述问题也受到越来越多研究人员的重视。随着大数据处理技术、机器学习与深度学习算法的发展,人工智能在大数据预测任务上的优势愈加明显。上海交通大学郑宇教授以城市为背景提出了城市计算的概念,通过城市中获取到的多种异构大数据进行分析、融合,以此来解决在城市化进程中所面临的各种挑战。
随着移动设备,全球定位系统(GPS)和Web2.0技术的迅速发展,基于位置的社交网络 (Location-based Social Networks,LBSNs)逐渐在人们的日常生活中普及。与传统的社交网络相比, LBSNs不仅包括了人与人之间的联系,还可以共享人们之间的位置信息,使得线上社交和线下社交相结合,用户可以随时分享自己或浏览他人的足迹。目前主流的社交应用(如Twitter、Foursquare、 Gowalla等)都满足LBSNs的主要特性。如Twitter这样的应用每天都在产生TB级别的时空数据,这些数据通常以GPS数据或签到数据(check-in)的形式记录,数据中不仅有一般社交网络所包含的用户与用户之间的朋友关系,还有着时间信息(时间戳等),空间信息(经纬度),语义信息(位置类别、评论留言、图片视频等)等信息。这些信息既是个人行为习惯与偏好的体现,也在一定程度上反映了一座城市里人们的生活方式和移动模式。基于以上数据,多种类型的推荐被提出,其中兴趣点推荐为其重要研究方向之一。
发明内容
本发明的目的是提供一种基于图嵌入与用户长短期兴趣融合的兴趣点推荐方法、系统,使得本发明以较小的计算代价获得了较高的兴趣点推荐准确率。
本发明为实现上述发明目的采用如下技术方案:
本发明提供了一种基于图嵌入与用户长短期兴趣融合的兴趣点推荐方法,包括:
从基于位置的社交网络中的签到数据中直接提取兴趣点数据,采用用户轨迹提取算法对用户签到数据进行预处理,提取出用户轨迹数据;
通过分析兴趣点数据,并输入至图嵌入模型中,接着生成最终兴趣点向量表示;
采用普通嵌入模型来处理用户ID信息并生成用户长期兴趣向量,通过门控循环单元模型来处理用户轨迹数据并生成用户短期兴趣向量,将用户长期兴趣向量与用户短期兴趣向量进行融合,得到最终用户兴趣向量;
将最终兴趣点向量表示与最终用户兴趣向量输入至推荐模型中,得到用户前往所有兴趣点的概率分布,取概率最高的K个兴趣点进行推荐。
进一步地,所述用户轨迹提取算法具体包括:
输入一个用户的所有签到记录数据集C={C0,C1,C2,...,Cn},兴趣点ID集合P={P0,P1,P2,...,Pn},其中C代表该用户所有签到数据的集合,C0,C1C2,...,Cn表示该用户的每一条签到记录,P表示签到数据集C对应的兴趣点ID集合,每一条签到记录对应的兴趣点ID记为P0,P1,P2,...,Pn
输出用户轨迹数据集包括:
a1.对用户签到数据集C进行遍历,设置循环变量i从0到n-1,n表示签到记录的总数,初始时i=0,Cstart=C0为起始签到记录,Pstart=P0为对应的起始兴趣点ID;
a2.从起始签到记录Cstart的下一条签到记录Cj开始遍历,设置循环变量从1到n,n表示该用户签到记录总数,初始时j=1,Cj=C1,Cj对应的兴趣点ID为Pj=P1
a3.当j<n时,计算Cj与Cstart之间的时间间隔ΔT,当ΔT<6h时,跳转至a4,否则跳转至a5;
a4.将签到记录Cj对应的兴趣点ID Pj添加至序列[Pstart]中,得到[Pstart,Pj],执行j=j+1,跳转至 a3:
a5.当i<n时,执行Pstart=Pi+1,跳转至a3,否则跳转至a6;
a6.计算所有序列的长度,丢弃所有长度小于2的序列,跳转至a7;
a7.计算该用户所有的序列总数,如果序列总数小于5,丢弃该用户所有序列,跳转至a8;
a8.提取每一条轨迹的长度大于2的所有子序列,称为子轨迹。
进一步地,所述兴趣点数据包括下述中至少一种:
兴趣点ID数据、兴趣点名称数据、兴趣点种类数据、兴趣点城市数据。
进一步地,通过分析兴趣点数据,并输入至图嵌入模型中,接着生成最终兴趣点向量表示的方法包括:
b1.根据所有用户轨迹数据形如[Pa,Pa+1,Pa+2,...,Pa+b]建立带权重的兴趣点有向图G=(P,E),其中Pa为序列起始兴趣点ID,Pa+b为序列终止兴趣点ID,b为序列长度,G表示兴趣点有向图,P表示有向图中所有兴趣点ID的集合,E表示有向图中所有边的集合,有向图的构建过程示例如下:
Pa→Pa+1,Pa+1→Pa+2,...,Pa+b-1→Pa+b
Pa→Pa+1表示有向图G中,一条从点Pa指向Pa+1的边,该边Pa→Pa+1属于集合E。
b2.通过随机游走策略,从有向图G中生成序列,作为模型输入之一;
b3.对兴趣点ID,兴趣点名称,兴趣点种类,兴趣点城市分别进行独热编码,初始化各自的特征向量E0,E1,E2,E3以及权重矩阵A;
b4.将各个特征向量乘以各自的权重系数,输入到带权重的Skip-Gram模型中,更新E0,E1,E2,E3,A,取Skip-Gram模型中间的隐层向量表示作为所有兴趣点的向量表示。
进一步地,采用普通嵌入模型来处理用户ID信息并生成用户长期兴趣向量的方法包括:
建立用户长期兴趣向量生成模型:
输入:用户轨迹数据集中的用户ID数据集U={U1,U2,U3,…,Un},U1,U2,U3,…,Un为每个用户对应ID;
输出:用户长期兴趣向量;
对用户ID进行独热编码,形成初始特征向量;
将用户初始特征向量输入Embedding普通嵌入模型中,生成相较于独热编码维度更低,表达含义更加丰富的用户Embedding向量,即用户长期兴趣向量。
进一步地,通过门控循环单元模型来处理用户轨迹数据并生成用户短期兴趣向量的方法包括:
建立用户短期兴趣向量生成模型:
建立基于门控循环单元的深度神经网络模型;
将经过图嵌入模型得到的兴趣点向量输入模型,经过全连接层以及门控循环单元层进行训练,将门控循环单元最后一个状态的隐向量作为用户短期兴趣向量的初步输出,再经过全连接层对向量进一步处理后得到最终用户短期兴趣向量。
进一步地,将用户长期兴趣向量与用户短期兴趣向量直接拼接,得到最终用户兴趣向量。
进一步地,基于门控循环单元的深度神经网络模型具体包括:
第一部分:输入数据为用户ID,包括实体嵌入层,嵌入层维度为Num_User,输出维度为100 的数据,此为用户长期兴趣向量初步表示;
第二部分:将第一部分得到的用户长期兴趣向量初步表示经过一个包含50个神经元节点的隐藏层,输入维度为100,经过ReLU激活函数处理,得到维度为50的数据,此为最终用户长期兴趣向量;
第三部分:输入数据为用户轨迹数据,根据用户轨迹数据中的兴趣点ID去查找对应的兴趣点向量,每个兴趣点向量维度为50;
第四部分:将第三部分的输出作为输入,是一个输入维度为50,包含了256个神经元节点的隐藏层的门控循环单元,取序列最后一个元素的隐层,输出维度为256的数据;
第五部分:包含256个神经元节点的隐藏层,经过ReLU激活函数处理,得到维度为256的数据;
第六部分:包含128个神经元节点的隐藏层,经过ReLU激活函数处理,得到维度为128的数据;
第七部分:包含50个神经元节点的隐藏层,经过ReLU激活函数处理,得到维度为50的数据,此数据即为最终用户短期兴趣向量;
第八部分:将第二部分长度为50的用户长期兴趣向量和第七部分长度为50的用户短期兴趣向量直接拼接,得到长度为100的用户最终兴趣向量表示。
本发明还提供了一种基于图嵌入与用户长短期兴趣融合的兴趣点推荐系统,包括:
签到数据预处理模块:用于从基于位置的社交网络中的签到数据中直接提取兴趣点数据,采用用户轨迹提取算法对用户签到数据进行预处理,提取出用户轨迹数据;
图嵌入模块:用于通过分析兴趣点数据,并输入至图嵌入模型中,接着生成最终兴趣点向量表示;
长短期兴趣融合模块:用于采用普通嵌入模型来处理用户ID信息并生成用户长期兴趣向量,通过门控循环单元模型来处理用户轨迹数据并生成用户短期兴趣向量,将用户长期兴趣向量与用户短期兴趣向量进行融合,得到最终用户兴趣向量;
推荐模块:用于将最终兴趣点向量表示与最终用户兴趣向量输入至推荐模型中,得到用户前往所有兴趣点的概率分布,取概率最高的K个兴趣点进行推荐。
本发明的有益效果如下:
本发明的兴趣点推荐方法融合了签到数据、兴趣点数据、用户数据等多源信息数据,充分挖掘与勘探了对兴趣点推荐有影响的因素,建立了基于长短期兴趣融合的深度学习模型,使得本发明以较小的计算代价获得了较高的兴趣点推荐准确率。
附图说明
图1为根据本发明实施例提供的流程图;
图2为根据本发明实施例提供的用户轨迹提取算法流程图;
图3为根据本发明实施例提供的基于门控循环单元(GRU)模型结构图。
具体实施方式
下面结合具体实施例对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
如图1所示为一种基于图嵌入与用户长短期兴趣融合的兴趣点推荐方法、系统,包括:
a.用户签到数据预处理模块
从基于位置的社交网络中直接提取如兴趣点ID(Identity,身份标识码,这里指兴趣点在此社交网络中的唯一编码),兴趣点名称等兴趣点数据,另采用用户轨迹提取算法对用户连续签到数据进行预处理,提取出用户轨迹数据;
b.图嵌入生成兴趣点向量模块
通过分析包括兴趣点ID数据和兴趣点名称数据,兴趣点种类数据,兴趣点城市数据这样的辅助信息,分别将其输入至图嵌入模型中,模型输出即为此社交网络中所有兴趣点的向量表示。
c.用户长短期兴趣向量融合模块
首先采用普通嵌入模型来处理用户ID信息而生成用户长期兴趣向量,接着通过门控循环单元 (GRU,Gated Recurrent Unit)模型来处理用户轨迹数据而生成用户短期兴趣向量,接着将用户长期兴趣向量与用户短期兴趣向量进行融合,得到最终用户兴趣向量。
d.输出推荐列表模块
将最终兴趣点向量表示与最终用户兴趣向量输入至推荐模型中,输出用户前往所有兴趣点的概率分布,取概率最高的K个兴趣点进行推荐,K是一个由用户指定的常数。
如图2所示,所述用户轨迹提取算法具体包括:
进一步的,所述用户轨迹提取算法具体包括:
输入:一个用户的所有签到记录数据集C={C0,C1,C2,...,Cn},兴趣点ID集合P={P0,P1,P2,...,Pn}。其中C代表该用户所有签到数据的集合,C0,C1C2,...,Cn表示该用户的每一条签到记录;P表示签到数据集C对应的兴趣点ID集合,每一条签到记录对应的兴趣点ID记为P0,P1,P2,...,Pn
输出:用户轨迹数据集
a1.对用户签到数据集C进行遍历,设置循环变量i从0到n-1,n表示签到记录的总数,初始时i=0,Cstart=C0为起始签到记录,Pstart=P0为对应的起始兴趣点ID;
a2.从起始签到记录Cstart的下一条签到记录Cj开始遍历,设置循环变量从1到n,n表示该用户签到记录总数,初始时j=1,Cj=C1;Cj对应的兴趣点ID为Pj=P1
a3.当j<n时,计算Cj与Cstart之间的时间间隔ΔT,当ΔT<6h时,跳转至a4,否则跳转至a5;
a4.将签到记录Cj对应的兴趣点ID Pj添加至序列[Pstart]中,得到[Pstart,Pj],执行j=j+1,跳转至 a3;
a5.当i<n时,执行Pstart=Pi+1,跳转至a3,否则跳转至a6;
a6.计算所有序列的长度,丢弃所有长度小于2的序列;跳转至a7;
a7.计算该用户所有的序列总数,如果序列总数小于5,丢弃该用户所有序列。跳转至a8;
a8.对用户所有轨迹进行数据增强,即提取每一条轨迹的长度大于2的所有子序列,称为子轨迹。
进一步的,所述b.图嵌入生成兴趣点向量包括:
b1.根据所有用户轨迹数据形如[Pa,Pa+1,Pa+2,...,Pa+b]建立带权重的兴趣点有向图G=(P,E),其中Pa为序列起始兴趣点ID,Pa+b为序列终止兴趣点ID,b为序列长度,G表示兴趣点有向图,P表示有向图中所有兴趣点ID的集合,E表示有向图中所有边的集合;有向图的构建过程示例如下:
Pa→Pa+1,Pa+1→Pa+2,...,Pa+b-1→Pa+b
Pa→Pa+1表示有向图G中,一条从点Pa指向Pa+1的边,该边Pa→Pa+1属于集合E。
b2.通过随机游走(Random Walk,一种常用的构建序列的方法)策略,从有向图G中生成序列,作为模型(后续模块推荐模型)输入之一;
b3.对兴趣点ID,兴趣点名称,兴趣点种类,兴趣点城市分别进行独热编码(即One-Hot编码,一种经典的有效编码),初始化各自的特征向量E0,E1,E2,E3以及权重矩阵A;
b4.将各个特征向量乘以各自的权重系数,输入到带权重的Skip-Gram模型(一种广泛使用地向量生成模型)中,更新E0,E1,E2,E3,A,取Skip-Gram模型中间的隐层向量表示作为所有兴趣点的向量表示。
进一步的,所述c.用户长短期兴趣向量融合包括:
c1.建立用户长期兴趣向量生成模型:
输入:用户轨迹数据集中的用户ID(Identity,身份标识码,这里指用户在此社交网络中的唯一编码)数据集U={U1,U2,U3,...,Un},U1,U2,U3,...,Un指用户对应的ID
输出:用户长期兴趣向量
1.1)对用户ID进行独热编码,形成初始特征向量;
1.2)将用户初始特征向量输入Embedding普通嵌入模型中,生成相较于独热编码维度更低,表达含义更加丰富的用户Embedding向量,即用户长期兴趣向量。
c2.建立用户短期兴趣向量生成模型:
2.1)建立基于门控循环单元(GRU)的深度神经网络模型
将经过图嵌入模型得到的兴趣点向量输入模型,经过全连接层以及门控循环单元(GRU)层进行训练,将门控循环单元最后一个状态的隐向量作为用户短期兴趣向量的初步输出,再经过全连接层对向量进一步处理后得到最终用户短期兴趣向量。
2.2)用户长短期兴趣向量融合
将用户长期兴趣向量与用户短期兴趣向量直接拼接,得到最终用户兴趣向量。
进一步的,所述d.输出推荐列表
得到上述兴趣点向量表示以及用户兴趣向量表示之后,对二者进行内积计算,得到的数值经过Softmax函数后输出一个该用户可能前往所有兴趣点的概率。
在上述模型构建后,训练该模型,其中设置训练样本的批大小为512,选用CrossEntropy交叉熵损失函数,通过Adam优化算法进行参数寻优,其中学习率为0.001,衰减项1e-08,动量0.9,迭代次数设置为200;
进一步的,如图3所示,所述基于门控循环单元(GRU)的深度神经网络包括:
第一部分:输入数据为用户ID,包括实体嵌入层,嵌入层维度为Num_User(Num_User为用户总数),输出维度为100的数据,此为用户长期兴趣向量初步表示。
第二部分:将第一部分得到的用户长期兴趣向量初步表示经过一个包含50个神经元节点的隐藏层,输入维度为100,经过ReLU激活函数处理,得到维度为50的数据。
此为最终用户长期兴趣向量。
第三部分:输入数据为用户轨迹数据,根据用户轨迹数据中的兴趣点ID去查找对应的兴趣点向量,每个兴趣点向量维度为50。
第四部分:将第三部分的输出作为输入,是一个输入维度为50,包含了256个神经元节点的隐藏层的门控循环单元,取序列最后一个元素的隐层,输出维度为256的数据。
第五部分:是一个包含256个神经元节点的隐藏层,经过ReLU激活函数处理,得到维度为256 的数据;
第六部分:是一个包含128个神经元节点的隐藏层,经过ReLU激活函数处理,得到维度为128 的数据;
第七部分:是一个包含50个神经元节点的隐藏层,经过ReLU激活函数处理,得到维度为50 的数据。此数据即为最终用户短期兴趣向量。
第八部分:将第二部分长度为50的用户长期兴趣向量和第七部分长度为50的用户短期兴趣向量直接拼接,得到长度为100的用户最终兴趣向量表示。
相对于现有技术,在本发明中兴趣点推荐的方法融合了轨迹数据、兴趣点数据、用户数据等,充分挖掘与提取了对兴趣点推荐有影响的因素,融合了兴趣点及其各种辅助信息,得到了表达能力丰富的兴趣点表征;另一方面,详细地考量了用户的行为模式与个性化特征,将用户长短期兴趣很好地融合在了一起,得到了蕴含丰富信息的用户兴趣表征。利用上述兴趣点表征和用户兴趣向量表征而进行的兴趣点推荐方法在缓解冷启动、数据稀疏的问题的同时,能够得到较高的推荐准确率。
由于当前研究兴趣点推荐问题中,对于兴趣点表征的建模,仅仅停留在兴趣点本身的ID属性这一特征上,其所构建出的兴趣点表征表达含义十分有限;本发明不仅采用了兴趣点ID这一特征,还采用了兴趣点名称、兴趣点种类、兴趣点城市等针对兴趣点的辅助信息,同时采用了还考虑到了不同辅助信息对于模型表征的重要程度不一致,采用了加权图嵌入的方法,很好地将兴趣点ID信息和兴趣点辅助信息融合,其所构建出的兴趣点表征表达能力十分丰富,有利于后续计算使用。
由于从人的角度分析,用户的兴趣分为两种,一种是用户长期兴趣,即用户保持了很久的兴趣或者生活习惯,是其固有的兴趣,不会轻易发生改变;另一种是用户短期兴趣,即用户在一段签到轨迹中所表现出来的兴趣趋向,这样的兴趣趋向可能在其下一段签到轨迹之中就会发生改变,是其容易发生改变的兴趣。本发明提出了一种用户长短期兴趣融合的模型,首先对用户长短期兴趣向量分别建模,再使用特定的方法将二者融合,由于该模型比较全面地挖掘了用户的兴趣,其所得到的最终用户兴趣表征具有比较丰富的表达能力,有利于进一步的计算。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (8)

1.一种基于图嵌入与用户长短期兴趣融合的兴趣点推荐方法,其特征在于,包括:
从基于位置的社交网络中的签到数据中直接提取兴趣点数据,采用用户轨迹提取算法对用户签到数据进行预处理,提取出用户轨迹数据;
通过分析兴趣点数据,并输入至图嵌入模型中,接着生成最终兴趣点向量表示;
采用普通嵌入模型来处理用户ID信息并生成用户长期兴趣向量,通过门控循环单元模型来处理用户轨迹数据并生成用户短期兴趣向量,将用户长期兴趣向量与用户短期兴趣向量进行融合,得到最终用户兴趣向量;
将最终兴趣点向量表示与最终用户兴趣向量输入至推荐模型中,得到用户前往所有兴趣点的概率分布,取概率最高的K个兴趣点进行推荐;
其中,所述用户轨迹提取算法具体包括:
输入一个用户的所有签到记录数据集C={C0,C1,C2,…,Cn},兴趣点ID集合P={P0,P1,P2,…,Pn},其中C代表该用户所有签到数据的集合,C0,C1C2,…,Cn表示该用户的每一条签到记录,P表示签到数据集C对应的兴趣点ID集合,每一条签到记录对应的兴趣点ID记为P0,P1,P2,…,Pn
输出用户轨迹数据集包括:
a1.对用户签到数据集C进行遍历,设置循环变量i从0到n-1,n表示签到记录的总数,初始时i=0,Cstart=C0为起始签到记录,Pstart=P0为对应的起始兴趣点ID;
a2.从起始签到记录Cstart的下一条签到记录Cj开始遍历,设置循环变量从1到n,n表示该用户签到记录总数,初始时j=1,Cj=C1,Cj对应的兴趣点ID为Pj=P1
a3.当j<n时,计算Cj与Cstart之间的时间间隔ΔT,当ΔT<6h时,跳转至a4,否则跳转至a5;
a4.将签到记录Cj对应的兴趣点ID Pj添加至序列[Pstart]中,得到[Pstart,Pj],执行j=j+1,跳转至a3;
a5.当i<n时,执行Pstart=Pi+1,跳转至a3,否则跳转至a6;
a6.计算所有序列的长度,丢弃所有长度小于2的序列,跳转至a7;
a7.计算该用户所有的序列总数,如果序列总数小于5,丢弃该用户所有序列,跳转至a8;
a8.提取每一条轨迹的长度大于2的所有子序列,称为子轨迹。
2.根据权利要求1所述的一种基于图嵌入与用户长短期兴趣融合的兴趣点推荐方法,其特征在于,所述兴趣点数据包括下述中至少一种:
兴趣点ID数据、兴趣点名称数据、兴趣点种类数据、兴趣点城市数据。
3.根据权利要求2所述的一种基于图嵌入与用户长短期兴趣融合的兴趣点推荐方法,其特征在于,通过分析兴趣点数据,并输入至图嵌入模型中,接着生成最终兴趣点向量表示的方法包括:
b1.根据所有用户轨迹数据形如[Pa,Pa+1,Pa+2,…,Pa+b]建立带权重的兴趣点有向图G=(P,E),其中Pa为序列起始兴趣点ID,Pa+b为序列终止兴趣点ID,b为序列长度,G表示兴趣点有向图,P表示有向图中所有兴趣点ID的集合,E表示有向图中所有边的集合,有向图的构建过程示例如下:
Pa→Pa+1,Pa+1→Pa+2,…,Pa+b-1→Pa+b
Pa→Pa+1表示有向图G中,一条从点Pa指向Pa+1的边,该边Pa→Pa+1属于集合E;
b2.通过随机游走策略,从有向图G中生成序列,作为模型输入之一;
b3.对兴趣点ID,兴趣点名称,兴趣点种类,兴趣点城市分别进行独热编码,初始化各自的特征向量E0,E1,E2,E3以及权重矩阵A;
b4.将各个特征向量乘以各自的权重系数,输入到带权重的Skip-Gram模型中,更新E0,E1,E2,E3,A,取Skip-Gram模型中间的隐层向量表示作为所有兴趣点的向量表示。
4.根据权利要求1所述的一种基于图嵌入与用户长短期兴趣融合的兴趣点推荐方法,其特征在于,采用普通嵌入模型来处理用户ID信息并生成用户长期兴趣向量的方法包括:
建立用户长期兴趣向量生成模型:
输入:用户轨迹数据集中的用户ID数据集U={U1,U2,U3,…,Un},U1,U2,U3,…,Un为每个用户对应ID;输出:用户长期兴趣向量;
对用户ID进行独热编码,形成初始特征向量;
将用户初始特征向量输入Embedding普通嵌入模型中,生成相较于独热编码维度更低,表达含义更加丰富的用户Embedding向量,即用户长期兴趣向量。
5.根据权利要求4所述的一种基于图嵌入与用户长短期兴趣融合的兴趣点推荐方法,其特征在于,通过门控循环单元模型来处理用户轨迹数据并生成用户短期兴趣向量的方法包括:
建立用户短期兴趣向量生成模型:
建立基于门控循环单元的深度神经网络模型;
将经过图嵌入模型得到的兴趣点向量输入模型,经过全连接层以及门控循环单元层进行训练,将门控循环单元最后一个状态的隐向量作为用户短期兴趣向量的初步输出,再经过全连接层对向量进一步处理后得到最终用户短期兴趣向量。
6.根据权利要求5所述的一种基于图嵌入与用户长短期兴趣融合的兴趣点推荐方法,其特征在于,将用户长期兴趣向量与用户短期兴趣向量直接拼接,得到最终用户兴趣向量。
7.根据权利要求5或6所述的一种基于图嵌入与用户长短期兴趣融合的兴趣点推荐方法,其特征在于,基于门控循环单元的深度神经网络模型具体包括:
第一部分:输入数据为用户ID,包括实体嵌入层,嵌入层维度为Num_User,输出维度为100的数据,此为用户长期兴趣向量初步表示;
第二部分:将第一部分得到的用户长期兴趣向量初步表示经过一个包含50个神经元节点的隐藏层,输入维度为100,经过ReLU激活函数处理,得到维度为50的数据,此为最终用户长期兴趣向量;
第三部分:输入数据为用户轨迹数据,根据用户轨迹数据中的兴趣点ID去查找对应的兴趣点向量,每个兴趣点向量维度为50;
第四部分:将第三部分的输出作为输入,是一个输入维度为50,包含了256个神经元节点的隐藏层的门控循环单元,取序列最后一个元素的隐层,输出维度为256的数据;
第五部分:包含256个神经元节点的隐藏层,经过ReLU激活函数处理,得到维度为256的数据;
第六部分:包含128个神经元节点的隐藏层,经过ReLU激活函数处理,得到维度为128的数据;
第七部分:包含50个神经元节点的隐藏层,经过ReLU激活函数处理,得到维度为50的数据,此数据即为最终用户短期兴趣向量;
第八部分:将第二部分长度为50的用户长期兴趣向量和第七部分长度为50的用户短期兴趣向量直接拼接,得到长度为100的用户最终兴趣向量表示。
8.一种基于图嵌入与用户长短期兴趣融合的兴趣点推荐系统,其特征在于,包括:
签到数据预处理模块:用于从基于位置的社交网络中的签到数据中直接提取兴趣点数据,采用用户轨迹提取算法对用户签到数据进行预处理,提取出用户轨迹数据;
图嵌入模块:用于通过分析兴趣点数据,并输入至图嵌入模型中,接着生成最终兴趣点向量表示;长短期兴趣融合模块:用于采用普通嵌入模型来处理用户ID信息并生成用户长期兴趣向量,通过门控循环单元模型来处理用户轨迹数据并生成用户短期兴趣向量,将用户长期兴趣向量与用户短期兴趣向量进行融合,得到最终用户兴趣向量;
推荐模块:用于将最终兴趣点向量表示与最终用户兴趣向量输入至推荐模型中,得到用户前往所有兴趣点的概率分布,取概率最高的K个兴趣点进行推荐;
其中,所述用户轨迹提取算法具体包括:
输入一个用户的所有签到记录数据集C={C0,C1,C2,…,Cn},兴趣点ID集合P={P0,P1,P2,…,Pn},其中C代表该用户所有签到数据的集合,C0,C1C2,…,Cn表示该用户的每一条签到记录,P表示签到数据集C对应的兴趣点ID集合,每一条签到记录对应的兴趣点ID记为P0,P1,P2,…,Pn
输出用户轨迹数据集包括:
a1.对用户签到数据集C进行遍历,设置循环变量i从0到n-1,n表示签到记录的总数,初始时i=0,Cstart=C0为起始签到记录,Pstart=P0为对应的起始兴趣点ID;
a2.从起始签到记录Cstart的下一条签到记录Cj开始遍历,设置循环变量从1到n,n表示该用户签到记录总数,初始时j=1,Cj=C1,Cj对应的兴趣点ID为Pj=P1
a3.当j<n时,计算Cj与Cstart之间的时间间隔ΔT,当ΔT<6h时,跳转至a4,否则跳转至a5;
a4.将签到记录Cj对应的兴趣点ID Pj添加至序列[Pstart]中,得到[Pstart,Pj],执行j=j+1,跳转至a3;
a5.当i<n时,执行Pstart=Pi+1,跳转至a3,否则跳转至a6;
a6.计算所有序列的长度,丢弃所有长度小于2的序列,跳转至a7;
a7.计算该用户所有的序列总数,如果序列总数小于5,丢弃该用户所有序列,跳转至a8;
a8.提取每一条轨迹的长度大于2的所有子序列,称为子轨迹。
CN202011145585.8A 2020-10-23 2020-10-23 一种基于图嵌入与用户长短期兴趣融合的兴趣点推荐方法、系统 Active CN112380426B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011145585.8A CN112380426B (zh) 2020-10-23 2020-10-23 一种基于图嵌入与用户长短期兴趣融合的兴趣点推荐方法、系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011145585.8A CN112380426B (zh) 2020-10-23 2020-10-23 一种基于图嵌入与用户长短期兴趣融合的兴趣点推荐方法、系统

Publications (2)

Publication Number Publication Date
CN112380426A CN112380426A (zh) 2021-02-19
CN112380426B true CN112380426B (zh) 2023-10-13

Family

ID=74580774

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011145585.8A Active CN112380426B (zh) 2020-10-23 2020-10-23 一种基于图嵌入与用户长短期兴趣融合的兴趣点推荐方法、系统

Country Status (1)

Country Link
CN (1) CN112380426B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112991009A (zh) * 2021-03-08 2021-06-18 北京嘀嘀无限科技发展有限公司 对象推荐方法、装置、电子设备和存储介质
CN112948683B (zh) * 2021-03-16 2022-11-11 山西大学 一种社交信息动态融合的社会化推荐方法
CN113139140B (zh) * 2021-05-17 2024-01-16 辽宁工程技术大学 基于时空感知gru并结合用户关系偏好的旅游景点推荐方法
CN113268669B (zh) * 2021-06-01 2022-09-23 重庆大学 基于联合神经网络的面向关系挖掘的兴趣点推荐方法
CN113407849B (zh) * 2021-07-15 2024-06-14 百果园技术(新加坡)有限公司 一种粗排序的方法及装置
CN113806568B (zh) * 2021-08-10 2023-11-03 中国人民大学 多媒体资源推荐方法、装置、电子设备及存储介质
CN114282120A (zh) * 2021-12-06 2022-04-05 中电万维信息技术有限责任公司 融合多维关系的图嵌入兴趣点推荐算法
CN114780866B (zh) * 2022-04-11 2022-11-01 山东省人工智能研究院 一种基于时空上下文兴趣学习模型的个性化智能推荐方法
CN116484953B (zh) * 2023-06-21 2023-09-12 南方科技大学 一种出行目的推断方法及终端
CN116562992B (zh) * 2023-07-11 2023-09-29 数据空间研究院 一种建模用户新兴趣不确定性的物品推荐方法、装置及介质
CN117149859B (zh) * 2023-10-27 2024-02-23 中国市政工程华北设计研究总院有限公司 一种基于政务用户画像的城市易涝点信息推荐方法
CN117591751B (zh) * 2024-01-19 2024-04-26 国网湖北省电力有限公司信息通信公司 基于图嵌入的上下文忠诚度融合的兴趣点推荐方法及系统
CN117633371B (zh) * 2024-01-25 2024-04-12 云南大学 基于多注意力机制的推荐方法、设备和可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015058558A1 (zh) * 2013-10-23 2015-04-30 腾讯科技(深圳)有限公司 问题推荐方法、装置及系统
CN110826698A (zh) * 2019-11-04 2020-02-21 电子科技大学 一种通过上下文相关的图嵌入表示人群移动模式的方法
CN111241419A (zh) * 2020-01-09 2020-06-05 辽宁工程技术大学 一种基于用户关系嵌入模型的下一个兴趣点推荐方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10962982B2 (en) * 2016-07-21 2021-03-30 Mobileye Vision Technologies Ltd. Crowdsourcing the collection of road surface information

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015058558A1 (zh) * 2013-10-23 2015-04-30 腾讯科技(深圳)有限公司 问题推荐方法、装置及系统
CN110826698A (zh) * 2019-11-04 2020-02-21 电子科技大学 一种通过上下文相关的图嵌入表示人群移动模式的方法
CN111241419A (zh) * 2020-01-09 2020-06-05 辽宁工程技术大学 一种基于用户关系嵌入模型的下一个兴趣点推荐方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种结合矩阵分解和深度学习技术的POI推荐模型;董丽丽;秦蕾;张翔;;计算机测量与控制(06);全文 *

Also Published As

Publication number Publication date
CN112380426A (zh) 2021-02-19

Similar Documents

Publication Publication Date Title
CN112380426B (zh) 一种基于图嵌入与用户长短期兴趣融合的兴趣点推荐方法、系统
CN112069415A (zh) 一种基于异构属性网络表征学习的兴趣点推荐方法
Jiao et al. A novel next new point-of-interest recommendation system based on simulated user travel decision-making process
CN113139140B (zh) 基于时空感知gru并结合用户关系偏好的旅游景点推荐方法
Liu et al. GNNRec: Gated graph neural network for session-based social recommendation model
CN112084373B (zh) 一种基于图嵌入的多源异构网络用户对齐方法
CN113068131B (zh) 一种用户移动方式和轨迹的预测方法、装置、设备及存储介质
Chen et al. Next POI recommendation based on location interest mining with recurrent neural networks
Xu et al. Venue2vec: An efficient embedding model for fine-grained user location prediction in geo-social networks
Yang et al. POI neural-rec model via graph embedding representation
Zhang et al. Travel attractions recommendation with travel spatial-temporal knowledge graphs
CN115017405B (zh) 一种基于多任务自编码的图神经网络旅游包推荐方法
Fang et al. URPI-GRU: An approach of next POI recommendation based on user relationship and preference information
CN114417124B (zh) 一种多任务强化学习推荐方法
Zhang et al. Attraction Recommendation Based on Tourism Context Modeling and Multi‐neural Collaborative Filtering Algorithm
Yu Global multi-source information fusion management and deep learning optimization for tourism: Personalized location-based service
Sun et al. Tcsa-net: a temporal-context-based self-attention network for next location prediction
Quan et al. An optimized task assignment framework based on crowdsourcing knowledge graph and prediction
CN116542742A (zh) 基于多关系类型的非同质性动态社交推荐方法
Sun et al. A multi-latent semantics representation model for mining tourist trajectory
Ghosh et al. Spatio-temporal storytelling? leveraging generative models for semantic trajectory analysis
CN115098763A (zh) 一种基于动静态兴趣建模与持续时间感知的序列服务推荐方法
Zhang et al. Next point-of-interest recommendation for cold-start users with spatial-temporal meta-learning
CN117763300B (zh) 基于时态图转换器和偏好波动的智能程序推荐方法
Zeng et al. Dpr-geo: a poi recommendation model using deep neural network and geographical influence

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant