CN112069415A - 一种基于异构属性网络表征学习的兴趣点推荐方法 - Google Patents
一种基于异构属性网络表征学习的兴趣点推荐方法 Download PDFInfo
- Publication number
- CN112069415A CN112069415A CN202010810495.XA CN202010810495A CN112069415A CN 112069415 A CN112069415 A CN 112069415A CN 202010810495 A CN202010810495 A CN 202010810495A CN 112069415 A CN112069415 A CN 112069415A
- Authority
- CN
- China
- Prior art keywords
- interest
- user
- point
- node
- path
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 73
- 238000012512 characterization method Methods 0.000 title claims abstract description 27
- 239000013598 vector Substances 0.000 claims abstract description 51
- 238000005295 random walk Methods 0.000 claims abstract description 16
- 230000007246 mechanism Effects 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims description 36
- 230000006870 function Effects 0.000 claims description 26
- 238000013507 mapping Methods 0.000 claims description 25
- 238000004364 calculation method Methods 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 16
- 238000005070 sampling Methods 0.000 claims description 14
- 238000010586 diagram Methods 0.000 claims description 13
- 238000004422 calculation algorithm Methods 0.000 claims description 12
- 238000004220 aggregation Methods 0.000 claims description 11
- 230000002776 aggregation Effects 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000006116 polymerization reaction Methods 0.000 claims description 8
- 239000013604 expression vector Substances 0.000 claims description 6
- 230000007704 transition Effects 0.000 claims description 6
- 230000002457 bidirectional effect Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 239000000126 substance Substances 0.000 claims description 4
- 101100517651 Caenorhabditis elegans num-1 gene Proteins 0.000 claims description 3
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 238000007689 inspection Methods 0.000 claims description 2
- 230000004927 fusion Effects 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 238000007792 addition Methods 0.000 description 3
- 230000006855 networking Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000000059 patterning Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Evolutionary Computation (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于异构属性网络表征学习的兴趣点推荐方法,该方法适用于在兴趣点的描述信息较为丰富、序列性比较强的签到数据集上对用户进行兴趣点的推荐,步骤包括:首先,基于用户的社交网络和签到数据集构建一个有向带权的异质属性网络;其次,基于兴趣点的文本描述获得异质网络中节点属性嵌入信息,基于多种元路径的随机游走结合自注意力机制获得节点的元路径嵌入信息;然后,将节点的属性嵌入和多种元路径嵌入信息融合,基于异构skip_gram去进行节点的表征向量学习;最后,基于表征向量的相似度,根据目标用户所处的时间、地点进行下一个兴趣点的精确推荐。
Description
技术领域
本发明涉及一种网络兴趣点推荐方法,尤其为一种基于异构属性网络表征学习的兴趣点推荐方法。
背景技术
近些年,平板、手环等各种智能移动设备的普遍应用显著地增强了人们对数据的产生和收集能力,生活中的每个角落都可能喷涌出大量的数据,如何利用已有的或提出新的技术从这些海量的数据中挖掘出有价值的和令人感兴趣的信息是一件非常具有挑战性的事情。在个性化推荐越来越受到学术界和工业界的重视大背景下,基于地理位置的社交网络(LBSN)领域内个性化推荐技术得到不断丰富和发展。
在基于LBSN进行个性化推荐的领域中,兴趣点的推荐是比较复杂的,对用户做出下一次签到的预测需要综合考虑的因素有很多,比如时间、当前所处地点、兴趣点的描述性文本和社交关系等上下文信息,另外,由于签到信息的产生相比于线上评论是比较昂贵的,因此会导致某些用户的签到记录稀疏,这也会提高推荐的难度。目前有很多关于兴趣点推荐的研究工作,章韵(CN 107341261 A)等人提出了一种基于时空特征的用户协同过滤的模型,但缺少对兴趣点签到顺序的有效挖掘,同时不太适用于处理签到记录稀疏的情况;俞东进(CN 109948066 A)等人提出的一种基于异构信息网络及元路径的兴趣点推荐模型,能够有效结合元路径和丰富的上下文信息,挖掘用户的偏好,但是难以应对兴趣点和用户的冷启动问题。
通过对现有的一些兴趣点推荐方法进行分析总结,传统方法在以下几个方面存在不足:1)忽视或者不重视每个用户签到顺序的影响,造成推荐兴趣点的不准确,降低用户的体验;2)通常将兴趣点表征学习为一个低维向量表示,实际上每个兴趣点承担着两种角色的作用:一个是作为用户的当前位置,即开始兴趣点;另一个是相对于上一个兴趣点,作为用户将要签到的位置,即结束兴趣点;3)忽视或不重视兴趣点独特的属性,比如地理位置、类别和描述信息等,有效利用这些外围信息,能够进一步提高推荐的准确性;4)难以处理用户或者兴趣点的冷启动问题。本方法能够有效解决这些问题,进一步提高推荐的准确性。
发明内容
本发明提供一种基于异构属性网络表征学习的兴趣点推荐方法,对时间、空间数据进行了深入挖掘与研究,并充分考虑了其他因素,尤其适用于在兴趣点的描述信息较为丰富和时序性比较强的签到数据集上进行推荐。
本发明采取的技术方案是,一种基于异构属性网络表征学习的兴趣点推荐方法,包括以下步骤:
2)按照每个用户在社交网络图的签到数据集上的签到时间进行排序,并且根据签到的时间段设定合适的时间标签(例如:按照每两小时作为一个分割区间,则对于在0:00-1:59时间内的签到对应的时间标签记为0);将用户每条签到记录中的时间戳和兴趣点映射成一个带有时间标签的兴趣点;
5)根据实际意义设计四种元路径,通过四种元路径获取签到兴趣点间的次序和用户社交网络信息;四种元路径分别为:用户-兴趣点-兴趣点-用户、兴趣点-用户-兴趣点、兴趣点-兴趣点-兴趣点,用户-用户-用户;在构建的网络图上按照每一种元路径分别进行随机游走,产生训练样本;
6)结合兴趣点的属性对兴趣点属性表征向量表示进行定义;利用自注意力机制融合预定义的多种元路径信息,计算出每个节点的表征向量表示;兴趣点的属性包括理位置、类别、签到描述文本信息;
7)为每一个兴趣点设置两个角色:兴趣点的两个角色分别为起始兴趣点和结束兴趣点;起始兴趣点的定义为:相对于下一个兴趣点,当前兴趣点扮演起始兴趣点角色;结束兴趣点的定义为:相对上一个兴趣点,当前兴趣点扮演结束兴趣点角色;基于异构skip_gram算法,学习在每一种元路径下,在签到网络中每个用户,及每个带有时间标签的兴趣点分别作为起始兴趣点与结束兴趣点的低维表征向量;
8)综合考虑当前用户所处的兴趣点、时间段、签到记录和社交情况,基于表征向量间的相似度,对用户进行TOP-n的兴趣点推荐。
优化的,上述基于异构属性网络表征学习的兴趣点推荐方法,在步骤1)中,根据用户的社交数据构建一个无权的社交网络图的具体方式为:如果两个用户ui和uj有关联(例如好友关系),则在社交网络图中,在用户ui和用户uj之间创建一条双向边;如果两个用户ui和用户uj之间没有关联,则不在社交网络图为用户ui和用户uj之间设置关联连接。
优化的,上述基于异构属性网络表征学习的兴趣点推荐方法,在步骤2)中,首先在所有用户的签到数据集上将每一个用户的签到记录分为一类,然后在每一个用户的签到数据集上按照签到时间的先后顺序进行排序,并将签到时间映射成时间标签,将时间标签和兴趣点映射成带有时间标签的兴趣点,将带有时间标签的兴趣点定义为时间标签兴趣点;生成时间标签兴趣点的具体步骤为:令f1:(t_stampi)→ti,其中,f1表示签到时间戳t_stampi和时间标签ti之间的一个映射关系,f2表示将时间标签ti和兴趣点映射成一个带有时间标签的兴趣点
优化的,上述基于异构属性网络表征学习的兴趣点推荐方法,步骤3)中,计算节点ui和uj之间的权重计算过程为:其中,L为所有兴趣点的集合,为用户ui在兴趣点pk的签到次数,为用户ui签到过的所有时间标签兴趣点集合ε为常数。
5.1)从第l个用户ul已经排好序的签到记录开始,每次依序取出两条相邻记录记为c1和c2,表示用户ul在时间戳是t_s tampi时在兴趣点签到,使用f1:(t_stampi)→ti,获取时间标签兴趣点和
5.2)处理用户ul的签到记录c1:如果用户节点ul和节点之间没有边,在用户节点ul和时间标签兴趣点节点之间创建一条双向边,权重初始化为1;如果用户节点ul和时间标签兴趣点节点已经存在边,在原始权重上加1;最终的权重为:表示用户ul在时间标签t1所代表的时间范围内在兴趣点签到的总次数;
5.3)处理用户ul的签到记录c2:检查图中是否存在从节点到的有向边,如果存在从节点到的有向边,将从节点到之间的有向边的权重加1;如果不存在从节点到的有向边,则创建一条从节点到的有向边,并且将从节点到之间的有向边的权重初始化为1;最终的权重为表示所有用户在签到后又紧接着在签到的总次数;
5.4)遍历该用户的所有签到记录;
5.5)以步骤5.1)至步骤5.4)的方式遍历所有用户,不断更新节点之间的权重。
优化的,上述基于异构属性网络表征学习的兴趣点推荐方法,步骤5)的具体步骤如下:
6.1)通过带有权重的元路径随机游走产生训练所需的游走序列Seq:在随机游走的过程中节点之间的转移概率计算方式如下:
其中上标τ在这里代表节点vi所属的类型为τ,具体包括用户节点类型U和时间标签兴趣点节点类型P;pathj表示预先定义的某一种元路径,具体包括PPP,PUP,UUU和UPPU四种元路径;表示在当前元路径Pathj下节点的邻域集合;
6.2)依据在不同元路径pathj下获得的游走序列Seqj,产生训练所需要的样本对。
优化的,上述基于异构属性网络表征学习的兴趣点推荐方法,步骤6)的具体实现步骤如下:
7.2)融合多种元路径信息的具体步骤如下:
7.2.1)根据预先定义的元路径表示向量的维度path_emb_dim,利用高斯分布随机初始化所有节点的元路径表示向量;
7.2.2)通过聚合函数aggr()反映邻居节点对当前节点产生影响的关系,邻居节点对当前节点产生影响的关系表示为:
7.2.3)利用自注意力机制去融合当前节点在不同元路径下的信息,在当前元路径pathj上融合其他元路径的信息,自注意力的计算过程为:
,其中Ai,j的维度是path_num*1,path_num表示预定义的元路径数量,和Wj是需要训练的参数,维度分别为1*atte_dim、atte_dim*path_emb_dim,其中atte_dim是自注意力机制预定义的一个超参数,Vi是兴趣点vi在不同元路径下的一个表示矩阵,维度为path_emb_dim*path_num;
在融合其他元路径影响后,兴趣点vi在元路径pathj条件下的最终元路径嵌入向量表示为:
7.3)融合节点属性后,兴趣点vi在元路径pathj条件下的最终表示向量为:emb(vi,j)=ajembattr(vi)+(1-aj)embpath(vi,j),其中aj是用于平衡元路径信息和属性信息的重要程度的超参数。
优化的,上述基于异构属性网络表征学习的兴趣点推荐方法,embattr(vi)利用属性映射函数Tτ将任意维度的节点属性映射到嵌入的目标维度;节点vi所属类型包括:用户节点类型U和时间标签兴趣点节点类型P,时间标签兴趣点类型P包括起始兴趣点类型P(s)和结束兴趣点类型P(e),记为τ∈{U,P(s),P(e)};分为两类,其中a)为:对于P类型节点,在所属该类别对应的维度下标记为1,否则标记为0,对于文本信息的描述,首先借助TF-IDF算法提取所有兴趣点描述文本信息的关键词,如果一个兴趣点的描述中包含该关键词,就在该关键词对应的维度上标记为TF-IDF值,否则就标记为0;b)为:对于U类型的节点,通过将用户去过的所有兴趣点的编码向量进行聚合操作,获得一个用户属性向量,聚合操作包括均值、加和、最大值操作。
优化的,上述基于异构属性网络表征学习的兴趣点推荐方法,实现步骤7)的具体步骤如下:
8.1)在随机游走采样获得的训练样本基础上,基于异构skip_gram模型训练目标函数,获得节点的表示向量,具体步骤如下:
节点的表征学习目标函数为:
优化的,上述基于异构属性网络表征学习的兴趣点推荐方法,步骤8)中,根据用户当前所处的地点和时间段进行兴趣点推荐的评分计算方法的步骤如下:
9.2)如果需要推荐的用户ul和/或所在的兴趣点在训练过程中未出现,首先计算出ul和/或的属性表征,然后按照9.1)步中评分计算方法计算评分,ul、计算方法分别为:ul,j=TU(attr(ul))、
9.3)按照score的高低从大到小排序,然后向用户推荐之前没有签到过的前n个兴趣点。
本发明提出了一种基于多种元路径、节点属性和社交网络数据表征学习的兴趣点推荐方法,在进行兴趣点推荐的时候既考虑了用户的社交网络影响和签到兴趣点之间顺序的影响;也考虑了兴趣点的地理位置、类别和文本描述等信息,能够针对不同的用户进行更精确的推荐;能够有效解决用户或者兴趣点的冷启动问题。
本申请的技术方案具有如下技术效果:首先基于用户的签到和社交网络数据构建了一个有向带权的异质属性网络;然后基于含有多种语义的多条元路径随机游走,产生模型的训练样本对;最后利用异构的skip_gram模型算法进行表征学习,基于向量之间的相似度进行兴趣点的推荐,得到了一种融合多元时空数据的兴趣点推荐算法。
这种融合了多元时空数据的兴趣点推荐算法有如下优点:1)相比一些传统方法构建的无向无权的同构图,本发明构建的有向带权的异质属性网络能够较为完整的保留用户签到数据所蕴含的时空时序信息;2)更加重视每个用户在不同兴趣点的签到时间顺序的影响,具体表现为:本发明根据兴趣点是用户当前所在的还是将要签到的两种情况,将其分别表征为两种向量和3)通过有效融合兴趣点的属性进行表征学习,能够有效应对用户或者兴趣点的冷启动问题。综上所述,本发明能够根据用户当前所在的时间和地点,进一步提高兴趣点推荐的准确度,提高用户的体验。
附图说明
图1是本发明基于用户签到和社交数据构建有向异质属性网络图的实例;
图2是本发明融合多种元路径、兴趣点属性和社交网络的兴趣点推荐方法模型图;
图1中,每张子图左上角字母是构建的顺序,深色节点代表用户,浅色节点代表时间标签兴趣点(例如:u1代表编号是1的用户,p5,4代表编号是5、时间标签是4的兴趣点,以此类推),其中用户节点的属性为采用加和操作获得。。
具体实施方式
下面结合附图与具体实施例进一步阐述本发明的技术特点。
一、体系结构
本发明的系统由一个原始语料库、数据预处理模块、构图模块、融合节点属性模块、融合多种元路径信息模块、随机游走采样模块、异构skip_gram训练模块、评分计算和TOP-n兴趣点推荐模块,如图2,以下对各部分进行具体说明:
原始语料库:社交网络用户签到记录(包括用户ID,兴趣点ID,签到时间戳,兴趣点类别、兴趣点文本描述信息)和用户社交关系数据集;
数据预处理模块:将用户签到数据集按每个用户进行分类,然后将每个用户的签到记录按时间先后顺序排序;采用上述技术方案步骤2所述的方法将时间戳映射到对应的时间标签;
构图模块:按照上述技术方案,步骤1,3和4涉及到构图模块,结合签到记录数据集和用户社交网络数据集进行有向带权异质属性网络图的构建;
融合节点属性模块:在上述技术方案步骤6涉及到融合节点属性模块,首先借助TF-IDF算法提取所有兴趣点文本描述信息包含的关键词,形成兴趣点和用户的属性编码向量,然后通过属性映射函数,将任意维度的属性信息嵌入为指定的维度,得到节点的属性表示向量;
融合多种元路径信息模块:在上述技术方案中步骤6涉及到融合多种元路径信息模块,利用预先定义的多条元路径并结合自注意力机制,得到节点的元路径嵌入信息;
随机游走采样模块:在上述技术方案步骤5涉及到随机游走采样模块,在预定义的多种元路径下进行带权重的随机游走采样;
异构skip_gram模块:在上述技术方案步骤7)涉及到异构skip_gram模块,基于随机游走采样模块产生的样本对,训练异构skip_gram模型,学习获得节点的表征向量;
评分计算及推荐模块:在上述技术方案步骤8涉及到评分计算及推荐模块,基于学习到的用户和时间标签兴趣点的表示向量,按照评分计算公式计算其他兴趣点的分值,按照分值大小排序,向用户推荐前n个未曾签到过的兴趣点。
二、方法流程
对目标用户进行推荐兴趣点的详细步骤如下:
步骤2:首先在所有用户的签到记录上按照用户进行分类,然后在每一个用户的签到记录上按照签到时间先后进行排序,并将签到的时间戳映射成时间标签,时间标签和兴趣点映射成时间标签兴趣点,在本专利涉及的方法中建议2种将签到时间映射成时间标签的方法:
1)把一天当中的二十四个小时作为分割的全集,以每两小时作为一个分割区间进行分割,则对于在0:00-1:59,2:00-3:59,4:00-5:59,6:00-7:59,8:00-9:59,10:00-11:59,12:00-13:59,14:00-15:59,16:00-17:59,18:00-19:59,20:00-21:59,22:00-23:59范围内的签到所对应的时间标签分别标记为0至11;
2)把一周的七天作为分割的全集,以每一天作为一个分割区间进行分割,则对于在周日、周一、周二、周三、周四、周五和周六时间范围内的签到所对应的时间标签分别记为0至6;
步骤3:利用公式计算在社交网络图中两个用户ui和uj之间的权重其中L为所有兴趣点的集合,为用户ui在兴趣点pk的签到次数,为用户ui签到过的所有时间标签兴趣点集合ε为一个非常小的常数,在实际应用中间以设置为1,是防止出现ui和uj之间有边,但是在数据集上没有相同兴趣点的签到记录,从而导致的情况。
1)从第l个用户ul已经排好序的签到记录开始,每次依序选取两条相邻记录记为c1和c2,表示用户ul在时间戳t_s tampi时在兴趣点签到,其中f1:(t_stampi)→ti,f1表示从时间戳到时间标签的一个映射关系,f2表示将时间标签和兴趣点映射成一个时间标签兴趣点
2)从第l个用户ul的签到记录当中读取c1
如果节点ul和节点之间没有边,创建节点ul和节点的一条双向边,权重都初始化为1;如果节点ul和节点之间已经存在边,就在原始权重上加1,最终的权重为:表示用户ul在时间标签t1所代表的时间范围内在兴趣点一共签到的次数;
3)从第l个用户ul的签到记录当中读取c2
4)遍历用户ul的所有签到记录;
5)以上述方式遍历所有用户,不断更新节点之间的权重。
1)通过带有权重的元路径随机游走产生训练所需的游走序列Seq:
在随机游走的过程中节点之间的转移概率计算方式如下:
2)通过在不同元路径pathj下获得的游走序列Seqj,产生训练所需要的样本对,设定每次游走的长度为n,因为要体现节点间的顺序性,产生训练样本的具体步骤如下:
其中ul,j表示用户ul在元路径pathj=PUP条件下的低维表示向量;
其中ul,j表示用户ul在元路径pathj=UUU条件下的低维表示向量;
步骤6:计算融合属性后,兴趣点属性嵌入的向量表示为:
其中embattr(vi)表示节点vi的属性表示向量;利用属性映射函数Tτ将任意维度的节点属性映射到嵌入的目标维度,属性映射函数可以根据需要选择线性矩阵或者非线性矩阵,其中τ在这里代表节点vi所属的类型,具体包括:用户节点类型U和时间标签兴趣点节点类型P,时间标签兴趣点类型P又包括起始兴趣点类型P(s)和结束兴趣点类型P(e),记为τ∈{U,P(s),P(e)}。是属性映射函数Tτ的输入:a)为:对于P类型节点,在所属该类别对应的维度下标记为1,否则标记为0,对于文本信息的描述,首先借助TF-IDF算法提取所有兴趣点描述文本信息的关键词,如果一个兴趣点的描述中包含该关键词,就在该关键词对应的维度上标记为TF-IDF值,否则就标记为0;b)为:对于U类型的节点,通过将用户去过的所有兴趣点的编码向量进行聚合操作,获得一个用户属性向量,聚合操作包括均值、加和、最大值操作;
步骤7:融合多种元路径嵌入信息的具体过程为:
1)根据预先定义的元路径表示向量的维度path_emb_dim,利用高斯分布随机初始化所有节点的元路径表示向量;
2)由干节点的每个邻居都在一定程度上影响着当前节点的表示,本发明通过聚合函数aggr()来反映邻居节点对当前节点产生影响的这种关系,可采用均值、最大和最小值聚合等,表示为:
3)为了在当前元路径pathj上融合其他元路径的信息,本发明利用一种自注意力机制去融合当前节点在不同元路径下的信息,自注意力的计算过程为:
其中Ai,j的维度是path_num*1,path_num表示预定义的元路径数量,和Wj是需要训练的参数,维度分别为1*atte_dim、atte_dim*path_emb_dim,其中atte_dim是自注意力机制预定义的一个超参数,Vi是兴趣点vi在不同元路径下的一个表示矩阵,维度为path_emb_dim*path_num;
在融合其他元路径影响后,兴趣点vi在元路径pathj条件下的最终元路径嵌入向量表示为:
步骤8:融合节点属性后,兴趣点vi在元路径pathj条件下的最终表示向量为:emb(vi,j)=ajembattr(vi)+(1_aj)embpath(vi,j),其中aj是用于平衡元路径信息和属性信息的重要程度的超参数。
步骤9:融合节点属性和多种元路径信息后,基于异构skip_gram模型去训练的具体步骤如下:
1)在随机游走采样获得的训练样本基础上,基于异构skip_gram模型训练目标函数,获得节点的表示向量,具体步骤如下:
节点的表征学习目标函数为:
步骤10:根据用户当前所处的地点和时间段进行兴趣点推荐的评分计算方法具体步骤如下:
然后,按照1)步中评分计算方法计算评分;
3)按照score的高低从大到小排序,然后向用户推荐之前没有签到过的前n个兴趣点。
实现本发明算法的伪代码如下:
当然,上述说明并非是对本发明的限制,本发明也并不限于上述举例,本技术领域的普通技术人员,在本发明的实质范围内,作出的变化、改型、添加或替换,都应属于本发明的保护范围。
Claims (10)
1.一种基于异构属性网络表征学习的兴趣点推荐方法,其特征在于:包括以下步骤:
5)根据实际意义设计四种元路径,通过四种元路径获取签到兴趣点间的次序和用户社交网络信息;四种元路径分别为:用户-兴趣点-兴趣点-用户、兴趣点-用户-兴趣点、兴趣点-兴趣点-兴趣点,用户-用户-用户;在构建的网络图上按照每一种元路径分别进行随机游走,产生训练样本;
6)结合兴趣点的属性对兴趣点属性表征向量表示进行定义;利用自注意力机制融合预定义的多种元路径信息,计算出每个节点的表征向量表示;
7)为每一个兴趣点设置两个角色:兴趣点的两个角色分别为起始兴趣点和结束兴趣点;起始兴趣点的定义为:相对于下一个兴趣点,当前兴趣点扮演起始兴趣点角色;结束兴趣点的定义为:相对上一个兴趣点,当前兴趣点扮演结束兴趣点角色;基于异构skip_gram算法,学习在每一种元路径下,在签到网络中每个用户,及每个带有时间标签的兴趣点分别作为起始兴趣点与结束兴趣点的低维表征向量;
8)综合考虑当前用户所处的兴趣点、时间段、签到记录和社交情况,基于表征向量间的相似度,对用户进行TOP-n的兴趣点推荐。
5.1)从第l个用户ul已经排好序的签到记录开始,每次依序取出两条相邻记录记为c1和c2,表示用户ul在时间戳是t_s tampi时在兴趣点签到,使用f1:(t_stampi)→ti,获取时间标签兴趣点和
5.2)处理用户ul的签到记录c1:如果用户节点ul和节点之间没有边,在用户节点ul和时间标签兴趣点节点之间创建一条双向边,权重初始化为1;如果用户节点ul和时间标签兴趣点节点已经存在边,在原始权重上加1;最终的权重为:表示用户ul在时间标签t1所代表的时间范围内在兴趣点签到的总次数;
5.3)处理用户ul的签到记录c2:检查图中是否存在从节点到的有向边,如果存在从节点到的有向边,将从节点到之间的有向边的权重加1;如果不存在从节点到的有向边,则创建一条从节点到的有向边,并且将从节点到之间的有向边的权重初始化为1;最终的权重为表示所有用户在签到后又紧接着在签到的总次数;
5.4)遍历该用户的所有签到记录;
5.5)以步骤5.1)至步骤5.4)的方式遍历所有用户,不断更新节点之间的权重。
6.1)通过带有权重的元路径随机游走产生训练所需的游走序列Seq:在随机游走的过程中节点之间的转移概率计算方式如下:
其中上标τ在这里代表节点vi所属的类型为τ,具体包括用户节点类型U和时间标签兴趣点节点类型P;pathj表示预先定义的某一种元路径,具体包括PPP,PUP,UUU和UPPU四种元路径;表示在当前元路径pathj下节点的邻域集合;
6.2)依据在不同元路径pathj下获得的游走序列Seqj,产生训练所需要的样本对。
7.根据权利要求6所述的基于异构属性网络表征学习的兴趣点推荐方法,其特征在于:步骤6)的具体实现步骤如下:
7.2)融合多种元路径信息的具体步骤如下:
7.2.1)根据预先定义的元路径表示向量的维度path_emb_dim,利用高斯分布随机初始化所有节点的元路径表示向量;
7.2.2)通过聚合函数aggr()反映邻居节点对当前节点产生影响的关系,邻居节点对当前节点产生影响的关系表示为:
7.2.3)利用自注意力机制去融合当前节点在不同元路径下的信息,在当前元路径pathj上融合其他元路径的信息,自注意力的计算过程为:
其中Ai,j的维度是path_num*1,path_num表示预定义的元路径数量,和Wj是需要训练的参数,维度分别为1*atte_dim、atte_dim*path_emb_dim,其中atte_dim是自注意力机制预定义的一个超参数,Vi是兴趣点vi在不同元路径下的一个表示矩阵,维度为path_emb_dim*path_num;
在融合其他元路径影响后,兴趣点vi在元路径pathj条件下的最终元路径嵌入向量表示为:
7.3)融合节点属性后,兴趣点vi在元路径pathj条件下的最终表示向量为:emb(vi,j)=ajembattr(vi)+(1-aj)embpath(vi,j),其中aj是用于平衡元路径信息和属性信息的重要程度的超参数。
8.根据权利要求7所述的基于异构属性网络表征学习的兴趣点推荐方法,其特征在于:embattr(vi)利用属性映射函数Tτ将任意维度的节点属性映射到嵌入的目标维度;节点vi所属类型包括:用户节点类型U和时间标签兴趣点节点类型P,时间标签兴趣点类型P包括起始兴趣点类型P(s)和结束兴趣点类型P(e),记为τ∈{U,P(s),P(e)};分为两类,其中a)为:对于P类型节点,在所属该类别对应的维度下标记为1,否则标记为0,对于文本信息的描述,首先借助TF-IDF算法提取所有兴趣点描述文本信息的关键词,如果一个兴趣点的描述中包含该关键词,就在该关键词对应的维度上标记为TF-IDF值,否则就标记为0;b)为:对于U类型的节点,通过将用户去过的所有兴趣点的编码向量进行聚合操作,获得一个用户属性向量,聚合操作包括均值、加和、最大值操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010810495.XA CN112069415B (zh) | 2020-08-13 | 2020-08-13 | 一种基于异构属性网络表征学习的兴趣点推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010810495.XA CN112069415B (zh) | 2020-08-13 | 2020-08-13 | 一种基于异构属性网络表征学习的兴趣点推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112069415A true CN112069415A (zh) | 2020-12-11 |
CN112069415B CN112069415B (zh) | 2023-11-24 |
Family
ID=73661574
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010810495.XA Active CN112069415B (zh) | 2020-08-13 | 2020-08-13 | 一种基于异构属性网络表征学习的兴趣点推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112069415B (zh) |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112765400A (zh) * | 2020-12-31 | 2021-05-07 | 上海众源网络有限公司 | 兴趣标签的权重更新方法、内容推荐方法、装置及设备 |
CN112800346A (zh) * | 2021-01-15 | 2021-05-14 | 郑州大学 | 一种融入空间关系的poi推荐方法及推荐系统 |
CN112861023A (zh) * | 2021-02-02 | 2021-05-28 | 北京百度网讯科技有限公司 | 地图信息处理方法、装置、设备、存储介质及程序产品 |
CN113158038A (zh) * | 2021-04-02 | 2021-07-23 | 上海交通大学 | 基于sta-tcn神经网络框架的兴趣点推荐方法及系统 |
CN113158041A (zh) * | 2021-04-19 | 2021-07-23 | 电子科技大学 | 一种基于多属性特征的文章推荐方法 |
CN113377955A (zh) * | 2021-06-11 | 2021-09-10 | 支付宝(杭州)信息技术有限公司 | 文本风险发现方法和系统 |
CN113505306A (zh) * | 2021-06-21 | 2021-10-15 | 广东交通职业技术学院 | 基于异质图神经网络的兴趣点推荐方法、系统及介质 |
CN113704440A (zh) * | 2021-09-06 | 2021-11-26 | 中国计量大学 | 一种基于物品图网络中路径表征的会话推荐方法 |
CN113742580A (zh) * | 2021-08-20 | 2021-12-03 | 杭州网易云音乐科技有限公司 | 目标类型数据的召回方法、装置、电子设备及存储介质 |
CN113807457A (zh) * | 2021-09-26 | 2021-12-17 | 北京市商汤科技开发有限公司 | 确定路网表征信息的方法、装置、设备及存储介质 |
CN113836398A (zh) * | 2021-08-29 | 2021-12-24 | 北京工业大学 | 基于属性异构网络表示学习的专利交易推荐方法 |
CN113918832A (zh) * | 2021-10-22 | 2022-01-11 | 重庆理工大学 | 基于社交关系的图卷积协同过滤推荐系统 |
CN114169975A (zh) * | 2021-12-17 | 2022-03-11 | 福州大学 | 基于随机游走异构注意力的购物网络商品推荐方法及系统 |
CN114357105A (zh) * | 2022-03-10 | 2022-04-15 | 北京百度网讯科技有限公司 | 地理预训练模型的预训练方法及模型微调方法 |
CN114547408A (zh) * | 2022-01-18 | 2022-05-27 | 北京工业大学 | 一种基于细粒度学生时空行为异质网表征的相似学生搜索方法 |
CN114817751A (zh) * | 2022-06-24 | 2022-07-29 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、电子设备、存储介质及程序产品 |
CN115033803A (zh) * | 2022-05-18 | 2022-09-09 | 电子科技大学 | 一种基于元路径的社交媒体用户推荐方法 |
CN115062210A (zh) * | 2022-07-08 | 2022-09-16 | 天津大学 | 一种融合社团结构的异质网络表示学习方法 |
CN116089722A (zh) * | 2023-02-15 | 2023-05-09 | 北京欧拉认知智能科技有限公司 | 基于图产出标签的实现方法、装置、计算设备和存储介质 |
CN117370672A (zh) * | 2023-12-06 | 2024-01-09 | 烟台大学 | 基于混合结构图的用户兴趣点推荐方法、系统和设备 |
CN117390300A (zh) * | 2023-10-09 | 2024-01-12 | 中国测绘科学研究院 | 多通道交互学习兴趣点推荐模型的构建方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109241454A (zh) * | 2018-07-18 | 2019-01-18 | 广东工业大学 | 一种将社交网络和图像内容融合的兴趣点推荐方法 |
CN109948066A (zh) * | 2019-04-16 | 2019-06-28 | 杭州电子科技大学 | 一种基于异构信息网络的兴趣点推荐方法 |
CN111061961A (zh) * | 2019-11-19 | 2020-04-24 | 江西财经大学 | 一种融合多特征的矩阵分解兴趣点推荐方法及其实现系统 |
-
2020
- 2020-08-13 CN CN202010810495.XA patent/CN112069415B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109241454A (zh) * | 2018-07-18 | 2019-01-18 | 广东工业大学 | 一种将社交网络和图像内容融合的兴趣点推荐方法 |
CN109948066A (zh) * | 2019-04-16 | 2019-06-28 | 杭州电子科技大学 | 一种基于异构信息网络的兴趣点推荐方法 |
CN111061961A (zh) * | 2019-11-19 | 2020-04-24 | 江西财经大学 | 一种融合多特征的矩阵分解兴趣点推荐方法及其实现系统 |
Cited By (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112765400A (zh) * | 2020-12-31 | 2021-05-07 | 上海众源网络有限公司 | 兴趣标签的权重更新方法、内容推荐方法、装置及设备 |
CN112765400B (zh) * | 2020-12-31 | 2024-04-23 | 上海众源网络有限公司 | 兴趣标签的权重更新方法、内容推荐方法、装置及设备 |
CN112800346A (zh) * | 2021-01-15 | 2021-05-14 | 郑州大学 | 一种融入空间关系的poi推荐方法及推荐系统 |
CN112800346B (zh) * | 2021-01-15 | 2022-10-14 | 郑州大学 | 一种融入空间关系的poi推荐方法及推荐系统 |
CN112861023A (zh) * | 2021-02-02 | 2021-05-28 | 北京百度网讯科技有限公司 | 地图信息处理方法、装置、设备、存储介质及程序产品 |
CN113158038A (zh) * | 2021-04-02 | 2021-07-23 | 上海交通大学 | 基于sta-tcn神经网络框架的兴趣点推荐方法及系统 |
CN113158038B (zh) * | 2021-04-02 | 2022-06-14 | 上海交通大学 | 基于sta-tcn神经网络框架的兴趣点推荐方法及系统 |
CN113158041A (zh) * | 2021-04-19 | 2021-07-23 | 电子科技大学 | 一种基于多属性特征的文章推荐方法 |
CN113158041B (zh) * | 2021-04-19 | 2022-07-29 | 电子科技大学 | 一种基于多属性特征的文章推荐方法 |
CN113377955A (zh) * | 2021-06-11 | 2021-09-10 | 支付宝(杭州)信息技术有限公司 | 文本风险发现方法和系统 |
CN113505306B (zh) * | 2021-06-21 | 2022-04-22 | 广东交通职业技术学院 | 基于异质图神经网络的兴趣点推荐方法、系统及介质 |
CN113505306A (zh) * | 2021-06-21 | 2021-10-15 | 广东交通职业技术学院 | 基于异质图神经网络的兴趣点推荐方法、系统及介质 |
CN113742580A (zh) * | 2021-08-20 | 2021-12-03 | 杭州网易云音乐科技有限公司 | 目标类型数据的召回方法、装置、电子设备及存储介质 |
CN113836398A (zh) * | 2021-08-29 | 2021-12-24 | 北京工业大学 | 基于属性异构网络表示学习的专利交易推荐方法 |
CN113704440B (zh) * | 2021-09-06 | 2022-02-18 | 中国计量大学 | 一种基于物品图网络中路径表征的会话推荐方法 |
CN113704440A (zh) * | 2021-09-06 | 2021-11-26 | 中国计量大学 | 一种基于物品图网络中路径表征的会话推荐方法 |
CN113807457A (zh) * | 2021-09-26 | 2021-12-17 | 北京市商汤科技开发有限公司 | 确定路网表征信息的方法、装置、设备及存储介质 |
CN113918832A (zh) * | 2021-10-22 | 2022-01-11 | 重庆理工大学 | 基于社交关系的图卷积协同过滤推荐系统 |
CN114169975A (zh) * | 2021-12-17 | 2022-03-11 | 福州大学 | 基于随机游走异构注意力的购物网络商品推荐方法及系统 |
CN114547408A (zh) * | 2022-01-18 | 2022-05-27 | 北京工业大学 | 一种基于细粒度学生时空行为异质网表征的相似学生搜索方法 |
CN114547408B (zh) * | 2022-01-18 | 2024-04-02 | 北京工业大学 | 一种基于细粒度学生时空行为异质网表征的相似学生搜索方法 |
CN114357105A (zh) * | 2022-03-10 | 2022-04-15 | 北京百度网讯科技有限公司 | 地理预训练模型的预训练方法及模型微调方法 |
CN114357105B (zh) * | 2022-03-10 | 2022-06-10 | 北京百度网讯科技有限公司 | 地理预训练模型的预训练方法及模型微调方法 |
CN115033803A (zh) * | 2022-05-18 | 2022-09-09 | 电子科技大学 | 一种基于元路径的社交媒体用户推荐方法 |
CN114817751A (zh) * | 2022-06-24 | 2022-07-29 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、电子设备、存储介质及程序产品 |
CN115062210A (zh) * | 2022-07-08 | 2022-09-16 | 天津大学 | 一种融合社团结构的异质网络表示学习方法 |
CN116089722A (zh) * | 2023-02-15 | 2023-05-09 | 北京欧拉认知智能科技有限公司 | 基于图产出标签的实现方法、装置、计算设备和存储介质 |
CN116089722B (zh) * | 2023-02-15 | 2023-11-21 | 北京欧拉认知智能科技有限公司 | 基于图产出标签的实现方法、装置、计算设备和存储介质 |
CN117390300A (zh) * | 2023-10-09 | 2024-01-12 | 中国测绘科学研究院 | 多通道交互学习兴趣点推荐模型的构建方法及装置 |
CN117370672A (zh) * | 2023-12-06 | 2024-01-09 | 烟台大学 | 基于混合结构图的用户兴趣点推荐方法、系统和设备 |
CN117370672B (zh) * | 2023-12-06 | 2024-02-23 | 烟台大学 | 基于混合结构图的用户兴趣点推荐方法、系统和设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112069415B (zh) | 2023-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112069415A (zh) | 一种基于异构属性网络表征学习的兴趣点推荐方法 | |
Yuan et al. | Measuring similarity of mobile phone user trajectories–a Spatio-temporal Edit Distance method | |
CN112380426B (zh) | 一种基于图嵌入与用户长短期兴趣融合的兴趣点推荐方法、系统 | |
WO2022088661A1 (zh) | 基于注意力机制的群体旅游路线推荐方法 | |
Farrahi et al. | A probabilistic approach to mining mobile phone data sequences | |
CN111274440B (zh) | 一种基于视觉和音频内容相关度挖掘的视频推荐方法 | |
Zhuang et al. | Understanding People Lifestyles: Construction of Urban Movement Knowledge Graph from GPS Trajectory. | |
CN104935963A (zh) | 一种基于时序数据挖掘的视频推荐方法 | |
CN113139140B (zh) | 基于时空感知gru并结合用户关系偏好的旅游景点推荐方法 | |
CN106909560B (zh) | 兴趣点排序方法 | |
CN112199600A (zh) | 目标对象识别方法和装置 | |
Xu et al. | Venue2vec: An efficient embedding model for fine-grained user location prediction in geo-social networks | |
Suzuki et al. | Personalized visited-poi assignment to individual raw GPS trajectories | |
Yang | Computational verb decision trees | |
CN115270007B (zh) | 一种基于混合图神经网络的poi推荐方法及系统 | |
CN114386513A (zh) | 一种集成评论与评分的交互式评分预测方法及系统 | |
CN115422441A (zh) | 一种基于社交时空信息与用户偏好的连续兴趣点推荐方法 | |
CN114357319A (zh) | 网络请求处理方法、装置、设备、存储介质及程序产品 | |
CN110598126B (zh) | 基于行为习惯的跨社交网络用户身份识别方法 | |
CN115687760A (zh) | 一种基于图神经网络的用户学习兴趣标签预测方法 | |
Cao et al. | Effective spatio-temporal semantic trajectory generation for similar pattern group identification | |
Yu et al. | Using information entropy and a multi-layer neural network with trajectory data to identify transportation modes | |
Lian et al. | Mining check-in history for personalized location naming | |
CN112650949B (zh) | 基于多源特征融合协同过滤的区域poi需求识别方法 | |
Yan | Geographic knowledge graph summarization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |