CN113378074A - 一种基于自监督学习的社交网络用户轨迹分析方法 - Google Patents
一种基于自监督学习的社交网络用户轨迹分析方法 Download PDFInfo
- Publication number
- CN113378074A CN113378074A CN202110649825.6A CN202110649825A CN113378074A CN 113378074 A CN113378074 A CN 113378074A CN 202110649825 A CN202110649825 A CN 202110649825A CN 113378074 A CN113378074 A CN 113378074A
- Authority
- CN
- China
- Prior art keywords
- data
- track
- learning
- points
- self
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 17
- 238000000034 method Methods 0.000 claims abstract description 46
- 238000012549 training Methods 0.000 claims abstract description 45
- 241000282414 Homo sapiens Species 0.000 claims abstract description 12
- 230000007246 mechanism Effects 0.000 claims abstract description 12
- 238000005516 engineering process Methods 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 17
- 238000012360 testing method Methods 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 15
- 238000005070 sampling Methods 0.000 claims description 10
- 230000000694 effects Effects 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 8
- 230000002123 temporal effect Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 7
- 230000002349 favourable effect Effects 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 abstract description 8
- 238000011160 research Methods 0.000 abstract description 5
- 238000013135 deep learning Methods 0.000 abstract description 4
- 238000000354 decomposition reaction Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 208000035473 Communicable disease Diseases 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000036528 appetite Effects 0.000 description 1
- 235000019789 appetite Nutrition 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于自监督学习的社交网络用户轨迹分析方法,通过数据增强技术对轨迹数据进行数据的合理扩充,再结合自监督的方法更好的学习轨迹数据的表示。然后构建一个预训练模型(该模型中包含了RNN和注意力机制等深度学习神经网络层),在预训练模型中利用对比学习构建正负样本,学习锚数据与正负样本之间的互信息。然后,将预训练模型中学习到的参数迁移到下游任务中,微调网络使下游任务的性能能够得到提升。本发明的目的旨在针对社交网络中用户轨迹分析研究中存在轨迹点稀疏、数据反馈存在差异、下一个轨迹点信号弱等问题,提供一种以自监督学习为框架并结合数据增强的方法,来学习人类的移动模式,使更流畅和完整地捕捉用户的运动意图。
Description
技术领域
本发明涉及轨迹预测技术领域,具体涉及一种基于自监督学习的社交网络用户轨迹分析方法。
背景技术
在基于位置的社交网络(Location based Social Network,LBSN)中,存在大量关于用户行踪的数字痕迹,如通话细节记录、GPS轨迹和社交媒体足迹等等,使得学习并挖掘人类移动模式的大量研究成为可能,并用于一系列下游任务。人类移动预测的目的是预测用户在不久的将来会到达哪里,它是一项基本任务,可以造福于许多领域,如控制传染病的传播、城市规划和犯罪识别等等,所以对社交网络中的轨迹进行分析是一件很有必要的事情。
但在训练模型的时候,研究人员经常会遇到数据不足的情况。一些任务只有几百条数据,这样的数据训练出来的模型泛化性往往不好。深度学习在训练一个模型时,其优化目标是降低代价函数,使模型的损失最低。此时需要以正确的方式调整模型参数,而参数的数量与样本量成正比。所以模型通常需要大量的数据。目前最先进的神经网络都需要成千上万的数据,而获取数据是一件耗时且困难的事,需要采取一些方式达到降低代价的目的。
数据增强是指在没有真正实质性增加数据的基础上,让有限的样本产生更多等同于数据样本。数据增强需要保证变换前后的数据和初始样本的主要特征和数据分布一致,确保模型能够学习到数据中的模式。目前,数据增强在图像学习领域被广泛使用,通过对图片进行翻转、缩放比例、扭曲、移位和高斯噪声等等,或者改变同一个场景下的不同投影方式(如光线、角度、距离和焦距等等)来增加样本量,提高了模型的泛化能力。同时数据增强起正则化作用并避免过拟合,可以降低模型网络结构过于复杂的风险。训练样本的丰富,会增加数据噪声,能提升模型的鲁棒性。本文模型利用现有的轨迹数据进行数据增强,来获取更好的实验效果。
自监督学习主要从大规模的无标注数据中挖掘自身的监督信息,通过这种构造的有效监督信息对模型进行训练,可以学习到价值的表示。自监督学习的方法主要可以分为三类:基于上下文(Context Based)、基于时序(Temporal Based)、基于对比(ContrastiveBased)的方法。
基于上下文的方法是根据数据本身的上下文信息来构造任务,比如在自然语言处理领域中的word2vec就是利用语句的顺序来预测不同位置的词语。基于时序的自监督学习主要是利用时序的约束关系来学习,如视频中相邻帧的特征都比较相似,而间距较远的帧不太相似。另一种自监督学习是以对比学习(Contrastive Learning,CL)为基础,这种方法通过对比样本的相似程度进行编码来学习数据的表示,通过构建正负样本,然后度量正负样本的距离来实现自监督学习,进而使得更容易解决下游的任务。
传统的方法从轨迹中发现常用的序列移动模式,然后根据这些常用的模式来预测用户的移动行为,矩阵分解在推荐系统中经常出现,其基本思想是将用户-项目矩阵分解为代表用户和项目特征的两个潜在矩阵,可以看作是一种探究轨迹移动模式的方法。然后将马尔科夫(Markov)模型与矩阵分解相结合,提出了分解个性化马尔可夫模型(FPMC)来进行项目推荐。在FPMC的基础上提出了一种称为FPMC-LR的矩阵分解方法,在考虑局部区域约束的情况下捕获马尔可夫链的序列转换。这些方法中的预定义移动模式比较固定且片面,难以对轨迹的周期性、转移规律进行特征提取,也难以挖掘出复杂轨迹序列的移动特征,轨迹预测的精确度仍然很低。
与传统的方法不同,最近一些基于模型的方法根据历史轨迹在多个地点之间建立状态转移矩阵来对用户未来的移动性进行建模。其考虑用户组群之间移动模式的相似性,然后提出了组级移动性建模方法来共享重要的运动规律。随着深度学习的发展,现有的大多数研究都使用循环神经网络(Recurrent Neural Networks,RNNs)来编码与轨迹相关的顺序、时空和语义知识。同时,已经采用了空间项嵌入技术和足迹加权的注意力机制来改善轨迹表示学习。
尽管目前的深度人类移动性学习模型在一定程度上取得了有效的效果,但仍存在几个主要的缺陷。首先,Foursquare和Yelp等基于位置的社交网络的基本限制是用户发布的随意和零散的位置。所以用户轨迹存在轨迹点不完整和稀疏性等问题。尽管一些研究已将时空因素吸收到RNN的门控机制中以缓解稀疏性问题,但时空因素和基于注意力的匹配都不足以从极为稀疏的用户位置互动中推断出真实的旅行偏好。此外,用于训练移动性学习模型的最常见策略是将下一个位置用作单个监督,并以历史轨迹作为输入。但由于轨迹数据中隐含的、噪声的和不完整的反馈,很容易导致有偏差的上下文编码。最后,下一个立即更新的位置是一个微弱的信号,有时甚至与用户过去的轨迹无关。例如,用户可能访问一家餐厅,但发现食物不符合她的胃口,此时她喜欢的餐厅就在附近,但不在训练数据中。因此,仅以预测下一个位置为指导的方法可能无法捕获与历史移动性相关的真正意图和丰富的上下文特征。
发明内容
为解决现有技术中存在的问题,本发明提供了一种以自监督学习为框架并结合数据增强的方法,来学习人类的移动模式,使更流畅和完整地捕捉用户的运动意图,解决了上述背景技术中提到的问题。
为实现上述目的,本发明提供如下技术方案:一种基于自监督学习的社交网络用户轨迹分析方法,包括如下步骤:
S1、对真实轨迹数据进行预处理,把数据划分为训练集和测试集,然后对每个数据集进行数据增强处理,再对轨迹数据进行嵌入处理,得到轨迹点的向量表示;
S2、将数据增强处理后的轨迹数据和轨迹点的向量表示输入到预训练模型中,对轨迹时间段进行划分为当前轨迹Tc和历史轨迹Th,在预训练模型中利用对比学习构建正负样本和噪声对比损失函数,学习不同轨迹点之间的互信息,区分真实的有利位置和少数负面位置来捕获隐含的移动意图,并保存预训练模型中得到的参数;
S3、将测试集的数据输入到预训练模型中,将步骤S2中得到的参数迁移到下游任务进行微调,以原始的训练集和测试集(未进行数据增强处理)作为下游任务的输入,预测用户的运动意图。
优选的,所述步骤S1中的预处理具体是指:对数据集的数据进行了清洗,对于每个数据集,删除了少于5个用户访问的POI,对于每个用户,我们将所有签到的位置连接起来形成一条轨迹,随后,将每条轨迹划分为子轨迹,设置每条轨迹的时间间隔为6小时,筛选并剔除少于5个子轨迹的用户。
优选的,所述的把数据划分为训练集和测试集具体是将80%的数据划分为训练集,20%的数据划分为测试集。
优选的,所述步骤S1中的数据增强处理包括轨迹子采样、空间增强和时间增强;所述空间增强是指:两条轨迹上的两个轨迹点是同一种类的点,且两个点在空间上的距离在5公里之内,则满足交换条件,交换后得到增加轨迹;所述的时间增强是指:两条轨迹上的两个轨迹点是同一种类的点,且两个点在时间上相距在一小时之内,则满足交换条件,交换后得到增加轨迹。
优选的,所述的对轨迹数据进行嵌入处理,得到轨迹点的向量表示具体是指:使用word2vec技术对训练集数据进行训练,得到初始化的所有轨迹的嵌入向量矩阵,将每一个轨迹点转化为向量表示。
优选的,将轨迹数据输入到预训练模型中具体包括:将当前轨迹Tc输入到模型中的GRU模块,不仅考虑连续轨迹点之间的空间距离ΔDt-1,t和时间间隔ΔTt-1,t,还考虑了非连续的时空间隔ΔDt-1,t+1和ΔTt-1,t+1,更新过程:
h′t=GRU(lt,ht-1,ΔTt-1,t,ΔDt-1,t)
h″t=GRU(lt,ht-1,ΔTt-1,t+1,ΔDt-1,t+1)
ht=(h′t;h″t);
还包括将历史轨迹Th输入到模型中的注意力机制模块,通过查询历史记录中与当前轨迹Tc最相似的轨迹Γ来捕捉人类活动的历程:
F(ht,oi)=tanh(htWo)。
通过降低噪声对比损失函数的值,来增大正样本与锚数据之间的互信息,减少负样本与锚数据之间的互信息,通过互信息来判断轨迹点之间的相似情况,提高预测精度。
本发明的有益效果是:
1)本发明使用对比学习,使用了互信息来衡量不同轨迹点间的相似度。利用对比的方式区分真实的有利位置和少数负面位置来捕获用户隐含的移动意图,是第一次在用户轨迹领域中用到对比学习,并在性能上得到了很大的提升。
2)本发明使用子采样和时空数据增强,在没有改变数据分布的基础上,让有限的样本产生更多有效的轨迹数据。数据增强可以提高模型的泛化能力,同时起正则化作用并避免过拟合,降低模型网络结构过于复杂的风险。
3)本发明基于自监督学习框架,没有使用图的概念,对于本发明,我们考虑到轨迹数量太大、模型脆弱等因素,因此使用对比学习,通过降低噪声对比损失函数(InfoNCE)的值,来增大正样本与锚数据之间的互信息,减少正样本与锚数据之间的互信息,然后通过自监督的方式,先预训练模型,再将与训练得到的参数去微调下游任务,并且在下游任务中的性能表现良好,优于传统模型的性能。
附图说明
图1为本发明实施例中子采样数据增强示意图;
图2为本发明实施例中空间数据增强示意图;
图3为本发明实施例中时间数据增强示意图;
图4为本发明实施例中对比学习采样示意图;
图5为本发明实施例方法流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1至图5,本发明提供一种技术方案:一种基于自监督学习的社交网络用户轨迹分析方法,本发明首先对轨迹数据进行增强处理,然后利用辅助任务(Pretext)来学习预训练模型中的轨迹表示,对于新的下游任务(Downstream task),我们将学习到的参数进行迁移,在新的有标签任务上进行微调(Fine-tune),从而得到一个能适应新任务的网络。这里主要分析自监督学习在轨迹预测(Trajectory Prediction,TP)和用户轨迹分类(Trajectory-User Linking,TUL)两个领域中的应用。
本发明的目的旨在针对社交网络中用户轨迹分析研究中存在轨迹点稀疏、数据反馈存在差异、下一个轨迹点信号弱等问题,提供一种以自监督学习为框架并结合数据增强的方法,来学习人类的移动模式,使更流畅和完整地捕捉用户的运动意图。
本发明的思路是通过数据增强技术对轨迹数据进行数据的合理扩充,再结合自监督的方法更好的学习轨迹数据的表示。然后构建一个预训练模型(该模型中包含了RNN以及注意力机制等深度学习神经网络层),在预训练模型中利用对比学习构建正负样本,学习不同轨迹点之间的互信息。然后,将预训练模型中学习到的参数迁移到下游任务中,通过微调使下游任务能够达到性能的提升,其中,下游任务是指该领域称之为利用预先训练的模型或组件的监督学习任务。具体包括以下步骤:
S1、对真实轨迹数据进行预处理,把数据划分为训练集和测试集,然后对每个数据集进行数据增强处理,再利用word2vec技术对轨迹数据进行嵌入处理,得到轨迹点的向量表示;
S2、将数据增强处理后的轨迹数据和轨迹点的向量表示输入到预训练模型中,对轨迹时间段进行划分为当前轨迹Tc和历史轨迹Th,学习当前和历史轨迹的不同特征,在预训练模型中利用对比学习构建正负样本和噪声对比损失函数,学习不同轨迹点之间的互信息,区分真实的有利位置和少数负面位置来捕获隐含的移动意图,保存预训练模型中的参数;
S3、将测试集的数据输入到预训练模型中,将步骤S2中得到的参数迁移到下游任务进行微调,预测用户的运动意图,即对轨迹进行具体的应用研究分析,例如轨迹预测和用户轨迹链接。
下面我们阐释S1的具体方法,S1中的预处理:我们首先对每个数据集的数据进行了清洗,对于每个数据集,删除了少于5个用户访问的POI;对于每个用户,我们将所有签到的位置连接起来形成一条轨迹。随后,将每条轨迹划分为子轨迹,设置每条轨迹的时间间隔为6小时。此外,我们筛选并剔除少于5个子轨迹的用户。对于所有数据集,选择每个用户80%的子轨迹作为训练集,并选择其余的20%作为测试数据。
然后对每个数据集进行数据增强处理,我们利用轨迹数据的时空特征,分别在时间和空间维度对数据进行了合理的扩充。具体而言,我们通过三种方式增加移动数据,即轨迹子采样、空间增强和时间增强。首先是轨迹子采样,如图1所示:给定一条轨迹Ti=[l1,l2,…,ln],是用户u在时间ti访问的第i个兴趣点,通常省略去用户表示的上标,简写为。Ti表示用户i在给定时间段内的一条子轨迹序列。数据增强之后的轨迹序列表示形式为:[l1,l2]、[l1,l2,l3]、[l1,l2,l3,…,ln],图1中的p代表即将预测的下一个兴趣点;其次是空间增强,如图2所示:给定两条轨迹T1=[l1,l2,l3,l4]和T1=[l′1,l'2,l′3]。假设l2和l'2是同一种类的点,并且l2和l'2空间上的距离在5公里之内,这是两个点满足交换的条件。那么我们可以得到增加的轨迹:[l1,l'2,l3,l4]、[l′1,l2,l′3]、[l′1,l2,l3]、[l′1,l2,l3,l4]等等。最后是时间增强,如图3所示:如果两个轨迹点是同一种类的点,并且在时间上相距在一小时之内,这两个点即满足交换的条件,可以以空间增强的方式对轨迹进行时间上的增强。
最后对数据增强之后的轨迹数据嵌入处理。使用word2vec对训练集进行训练,得到初始化的所有轨迹的嵌入向量(item embedding)矩阵,并将每一个轨迹点转化为向量表示。
在步骤S2中,将获取预训练模型中学到的参数。我们将增强之后轨迹分为当前轨迹Tc和历史轨迹Th,并将其输入不同的神经网络模块,分别获取其特征表示,然后将得到的特征向量进行拼接,做为最后分类的输入。
我们首先对当前轨迹模块进行处理,该模块使用了两个门循环单元(GateRecurrent Unit,GRU)来提取用户当前轨迹的移动模式。我们不仅仅只考虑将连续的轨迹点之间的空间距离ΔDt-1,t和时间间隔ΔTt-1,t,也考虑了非连续的时空间隔ΔDt-1,t+1和ΔTt-1,t+1。其更新过程:
h′t=GRU(lt,ht-1,ΔTt-1,t,ΔDt-1,t)
h″t=GRU(lt,ht-1,ΔTt-1,t+1,ΔDt-1,t+1)
其中,h′t和h″t是两个GRU的隐藏状态,将进一步连接为ht=(h′t;h″t)。
接下来对历史轨迹进行处理,我们使用注意力机制通过查询历史记录中与当前轨迹Tc最相似的轨迹Γ轨迹来捕捉人类活动的例程:
F(ht,oi)=tanh(htWo)
其中,是通过ht和历史事件oi之间的相似性计算出来的注意力权重,向量δt计算与当前轨迹移动模式具有最相关周期性的用户轨迹Γ。F是计算当前移动性(ht)的得分函数、W是可学习到的参数、o是历史移动模式的语义。
为了衡量不同轨迹点之间相互依赖的程度,我们用到了互信息这一概念。我们使用GRU将已观测到的轨迹T≤t=[l1,l2,...,lt]的特征编码进隐藏状态ht,去预测其未来的轨迹点T>t=[lt+1,lt+2,…,lt+K],K值不会很大。我们在潜空间中利用对比学习,如图4所示,并预测与K个未来连续签入相对应的潜在向量为了预测我们将真实预测值的轨迹点zt+k(对应于真实轨迹点的lt+k)作为正样本,从其他用户的轨迹中随机采样j个点做为负样本然后构造了噪声对比损失函数:
其中S(·,·)是评估两个向量相似性的函数,表示嵌入后潜空间的j个负样本。为了使预测结果与真实性之间的相似度最大化,同时使预测结果与负样本之间的相似度最小化。在实践中,我们使用点积,然后进行非线性变换来评估相似度。然后使用Adam来优化模型的损失函数。最后用一层全连接层对轨迹进行分类,开始训练模型并保存对应的参数。
在步骤S3中,我们用预训练模型中保存的参数来初始化下游任务模型中对应的参数。这里的轨迹数据是没有进行增强的轨迹数据,其他的预处理行为与步骤S1的相同。我们的发明通过微调能使下游任务的预测性能提升,说明数据增强和自监督学习对轨迹的分析是有效果的。
Word2vec是一种向量化的技术,目的是在于将离散的数据嵌入到连续的向量空间中。Word2vec可以通过中心词预测上下文,使用预测出来的上下文与真实的上下文之间的差距优化Word2vec模型,从而可以学到一个合适的表示这些数据的多维向量模型;同时,Word2vec也可以通过上下文预测中心词。这些向量中包含了数据的上下文信息,也就代表了原始数据之间的关系。
Adam即一种对随机目标函数执行一阶梯度优化的算法,该算法基于适应性低阶矩估计。能够对每个不同的参数调整不同的学习率,对频繁变化的参数以更小的步长进行更新,而稀疏的参数以更大的步长进行更新。Adam算法梯度的对角缩放(diagonalrescaling)具有不变性,因此很适合求解带有大规模数据或参数的问题。
对比学习是自监督学习的一种方法,当前的机器学习训练方法大都依赖于手工标注信息,这样会导致样本需求量大、模型脆弱等不良影响。我们使用对比学习的方法对模型进行训练,通过学习编码器k,使得:
fθ(k(x),k(x+))>>fθ(k(x),k(x-))
其中x通常被称为锚数据,x+是与x相似或者相同的数据点,称为正样本;x-指的是与x不同的数据,称为负样本。fθ是一个由θ参数化的相似度衡量函数,用来衡量特征之间的相似性。在对比学习中,通过对比正负样本来学习表示,其目标就是让上式中左边的部分尽可能大于右边的部分,即让正样本x+与锚数据的相关程度尽可能最大化。
互信息(Mutual Information,MI)是来描述两个变量之间的相关程度。首先引入互信息来描述两个变量之间的相关程度。假设存在一个随机变量X,和另外一个随机变量Y,那么他们的互信息是:
I(X,Y)=H(X)-H(X|Y)
=H(Y)-H(Y|X)
式中H(X)是X的信息熵,H(X|Y)是已知Y的前提下,使X的不确定性减少的信息量,即X的信息熵。互信息实际上是相对熵的特殊情形,它度量两个对象之间的相关性,在信息论中可以看成是一个随机变量中包含关于另一个随机变量的信息量,如果信息量为0,则表示两个随机变量相互独立。使用互信息理论进行POI预测是基于如下假设:当签到点在某个特定类别出现频率高,但在其他类别出现频率比较低时,该签到点与该类的互信息比较大,也就是说正样本之间的互信息较大,负样本之间的互信息小。
如图5所示是本发明方法的具体流程,首先,我们在源数据集上执行步骤S1得到大量的轨迹数据,针对轨迹预测,我们使用两个真实数据集Foursquare和Gowalla中的四个城市(New York,和Singapore城市的数据集来自Foursquare,Houston和California城市的数据集来自Gowalla)的轨迹数据集作为测试集,分别采用实施例训练得到的参数,微调下游任务的轨迹预测模型。(第一个数据Foursquare来源见参考文献【Yuan,Q.;Cong,G.;Ma,Z.;Sun,A.;and Thalmann,N.M.2013a.Time-aware point-of-interest recommendation.InSIGIR,363–372.】,第二个数据集Gowalla来源见参考文献【Yuan,Q.;Cong,G.;Ma,Z.;Sun,A.;and Thalmann,N.M.2013b.Who,where,when and what:discover spatio-temporaltopics for twitter users.In SIGKDD,605–613.】)
采用本发明的轨迹预测模型在测试集上的预测效果如下表所示。
对表格中方法的介绍如下:
PRME:是一种成对度量嵌入方法,该方法利用矩阵分解将轨迹点编码到一个潜在的欧几里德空间,并利用马尔可夫链估计运动转移,其实现过程参考文献【Feng,S.,Li,X.,Zeng,Y.,Cong,G.,Chee,Y.M.,&Yuan,Q.(2015).Personalized ranking metricembedding for next new poi recommendation.In International Joint Conferenceon Artificial Intelligence(pp.2069–2075).】
NexT:利用用户的个人和集体移动性,提出了两步预测模型。该方法首先利用序列移动模式,然后利用基于监督学习的决策树模型提取一组时空特征用于用户移动预测。【Comito,C.(2020).Next:a framework for next-place prediction on location basedsocial networks.Knowledge-Based Systems,204,106205】
ST-RNN:是一种基于RNN的方法,结合时空因素预测用户的下一个位置。【Liu,Q.,Wu,S.,Wang,L.,&Tan,T.(2016).Predicting the next location:A recurrent modelwith spatial and temporal contexts.In International Joint Conference onArtificial Intelligence(pp.194–200).】
POI2Vec:是一种基于签入点嵌入的方法,考虑了地理和时间的影响,并基于学习到的签到点表示来预测下一个位置。【Feng,S.,Cong,G.,An,B.,&Chee,Y.M.(2017).Poi2vec:Geographical latent representation for predicting future visitors.InAAAI Conference on Artificial Intelligence(pp.102–108).】
HST-LSTM:以序列到序列的学习方式将时空影响融合到LSTM中,并利用上下文信息提高模型在稀疏数据预测中的性能。【Kong,D.,&Wu,F.(2018).Hst-lstm:Ahierarchicalspatial-temporal long-short term memory network for location prediction.InInternational Joint Conference on Artificial Intelligence(pp.2341–2347).】
Flashblack:是另一种基于RNN的稀疏移动模型,对RNN的隐藏状态进行闪回查询。其基本思想是从历史数据中搜索周期运动模式,这与DeepMove和VaNext类似,只是在隐藏状态下进行匹配。【Yang,D.,Fankhauser,B.,Rosso,P.,&Cudre-Mauroux,P.(2020).Location prediction over sparse user mobility traces using rnns:Flashback inhidden states!In International Joint Conference on Artificial Intelligence(pp.2184–2190).】
DeepMove:结合RNN和注意机制来模拟人类动态移动性。它引入了轨迹匹配网络,通过查询用户记录数据中的相同/相似运动来学习运动的周期性。【Feng,J.,Li,Y.,Zhang,C.,Sun,F.,Meng,F.,Guo,A.,&Jin,D.(2018).Deepmove:Predicting human mobilitywith attentional recurrent networks.In The World Wide Web Conference(pp.1459–1468)】
VANext:使用可变注意编码最近的移动性事件,并利用用户的周期性移动性。它利用CNN来捕捉用户的移动模式,而不是RNN。【Gao,Q.,Zhou,F.,Trajcevski,G.,Zhang,K.,Zhong,T.,&Zhang,F.(2019).Predicting human mobilityvia variationalattention.In The World Wide Web Conference(pp.2750–2756).】
为了进一步说明本发明提供的基于自监督学习的方法的效果。本应用例在两个数据集的四个城市上分别进行的测试,我们在预训练模型中输入的是数据增强后的数据集,在微调时输入的是初始数据集(未做数据增强)。在本发明中,我们使用了ACC@K、AUC来评估方法的有效性。
ACC@K准确率就是用来计算预测结果中概率最大的前K个结果包含正确标签的占比。平常我们所说的准确率其实就是ACC@1的准确率。ACC@K准确率考虑的是预测结果中最有可能的K个结果是否包含有真实标签,如果包含则预测正确,如果不包含则预测错误。所以,K值取得越大计算得到的ACC@K准确率就会越高,极端情况下如果取K值为分类数,那么得到的准确率就肯定是1。这里,我们看模型的ACC@1、ACC@5和ACC@10的准确率。
其中的指标ACC@10表示在测试用例中,真实标签项目在预测结果的前10个项目所占的比例,ACC@10不关心项目的真实排名,只要在预测的前10个项目中存在真实标签项目就算预测成功。第二个指标AUC是衡量二分类模型优劣的一种评价指标,表示正例排在负例前面的概率,能很好描述模型整体性能的高低。即AUC值是一个概率值,当你随机挑选一个正样本以及负样本,当前的分类算法根据计算得到的Score值将这个正样本排在负样本前面的概率就是AUC值,AUC值越大,当前分类算法越有可能将正样本排在负样本前面,从而能够更好地分类。
从表格中的实验结果可以看出,我们提出的基于自监督的用户轨迹预测方法可以大幅度提高轨迹预测的性能。其分类准确率几乎高于所有其他的对比方法。我们将本文基于自监督学习的轨迹预测模型与DeepMove和VANext在纽约数据集上进行比较,如表1所示,其中VALUE表示的是进行对比的三个模型分别在ACC@1、ACC@5、ACC@10和AUC上的精确度。其结果显示,VANext的预测效果要优于DeepMove,表明变分注意力机制要比注意力机制更能匹配用户过去最相似的移动方式,而SeNext优于VANext,说明本文的自监督学习结合数据增强的方法相比于之前的深度学习模型,可以更好地挖掘用户轨迹的潜在移动规律。由此可知,本发明在用户轨迹的分析上面具有更准确的效果。
本发明没有采用聚类对移动轨迹进行处理,但本发明使用了其他的预处理形式,这样的预处理结果更符合我们模型的输入需求。预处理之后,我们首先对轨迹数据进行了3种数据增强(分别是子采样数据增强图、空间数据增强和时间数据增强),充分考虑了轨迹数据中的时空属性,能够对时空特征进行更好的提取,然后我们通过word2vec对增强后的轨迹进行嵌入处理,再有,本发明没有使用图的概念。对于本发明,我们考虑到轨迹数量太大、模型脆弱等因素,因此使用对比学习,通过降低噪声对比损失函数(InfoNCE)的值,来增大正样本与锚数据之间的互信息,减少负样本与锚数据之间的互信息,然后通过自监督的方式,先预训练模型,再将与训练得到的参数去微调下游任务。本发明中也利用了门循环单元、MLP多层感知机和注意力机制来构建基础模型。再轨迹数据输入进模型之前,我们把轨迹数据分成了当前轨迹和历史轨迹。本发明先使用GRU来提取用户当前轨迹的序列签到模式,接下来对历史轨迹进行处理,通过注意力机制为每条历史轨迹匹配相似的当前轨迹,完成历史轨迹与当前轨迹的配对,同时并且本发明的基础模型中已经对轨迹数据进行特征提取,而本发明是利用对比学习中的互信息,是轨迹点之间的互信息,通过互信息来判断轨迹点之间的相似情况,进而判断预测结果。本发明通过减小InfoNCE的方式来增大互信息,从而提高预测精度。
尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于自监督学习的社交网络用户轨迹分析方法,其特征在于,包括如下步骤:
S1、对真实轨迹数据进行预处理,把数据划分为训练集和测试集,然后对每个数据集进行数据增强处理,再对轨迹数据进行嵌入处理,得到轨迹点的向量表示;
S2、将数据增强处理后的轨迹数据和轨迹点的向量表示输入到预训练模型中,对轨迹时间段进行划分为当前轨迹Tc和历史轨迹Th,在预训练模型中利用对比学习构建正负样本和噪声对比损失函数,学习不同轨迹点之间的互信息,区分真实的有利位置和少数负面位置来捕获隐含的移动意图,并保存预训练模型中得到的参数;
S3、将测试集的数据输入到预训练模型中,将步骤S2中得到的参数迁移到下游任务进行微调,以原始的训练集和测试集作为下游任务的输入,预测用户的运动意图。
2.根据权利要求1所述的基于自监督学习的社交网络用户轨迹分析方法,其特征在于:所述步骤S1中的预处理具体是指:对数据集的数据进行了清洗,对于每个数据集,删除了少于5个用户访问的POI,对于每个用户,我们将所有签到的位置连接起来形成一条轨迹,随后,将每条轨迹划分为子轨迹,设置每条轨迹的时间间隔为6小时,筛选并剔除少于5个子轨迹的用户。
3.根据权利要求1所述的基于自监督学习的社交网络用户轨迹分析方法,其特征在于:所述的把数据划分为训练集和测试集具体是将80%的数据划分为训练集,20%的数据划分为测试集。
4.根据权利要求1所述的基于自监督学习的社交网络用户轨迹分析方法,其特征在于:所述步骤S1中的数据增强处理包括轨迹子采样、空间增强和时间增强;所述空间增强是指:两条轨迹上的两个轨迹点是同一种类的点,且两个点在空间上的距离在5公里之内,则满足交换条件,交换后得到增加轨迹;所述的时间增强是指:两条轨迹上的两个轨迹点是同一种类的点,且两个点在时间上相距在一小时之内,则满足交换条件,交换后得到增加轨迹。
5.根据权利要求1所述的基于自监督学习的社交网络用户轨迹分析方法,其特征在于:所述的对轨迹数据进行嵌入处理,得到轨迹点的向量表示具体是指:使用word2vec技术对训练集数据进行训练,得到初始化的所有轨迹的嵌入向量矩阵,将每一个轨迹点转化为向量表示。
6.根据权利要求1所述的基于自监督学习的社交网络用户轨迹分析方法,其特征在于:将轨迹数据输入到预训练模型中具体包括:将当前轨迹Tc输入到模型中的GRU模块,不仅考虑连续轨迹点之间的空间距离ΔDt-1,t和时间间隔ΔTt-1,t,还考虑了非连续的时空间隔ΔDt-1,t+1和ΔTt-1,t+1,更新过程:
h’t=GRU(lt,ht-1,ΔTt-1,t,ΔDt-1,t)
h”t=GRU(lt,ht-1,ΔTt-1,t+1,ΔDt-1,t+1)
ht=(h’t;h”t);
还包括将历史轨迹Th输入到模型中的注意力机制模块,通过查询历史记录中与当前轨迹Tc最相似的轨迹Γ来捕捉人类活动的历程:
F(ht,oi)=tanh(htWo)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110649825.6A CN113378074A (zh) | 2021-06-10 | 2021-06-10 | 一种基于自监督学习的社交网络用户轨迹分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110649825.6A CN113378074A (zh) | 2021-06-10 | 2021-06-10 | 一种基于自监督学习的社交网络用户轨迹分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113378074A true CN113378074A (zh) | 2021-09-10 |
Family
ID=77573842
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110649825.6A Withdrawn CN113378074A (zh) | 2021-06-10 | 2021-06-10 | 一种基于自监督学习的社交网络用户轨迹分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113378074A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114093014A (zh) * | 2022-01-20 | 2022-02-25 | 深圳前海中电慧安科技有限公司 | 一种图码关联强度计算方法、装置、设备及存储介质 |
CN114328791A (zh) * | 2021-12-30 | 2022-04-12 | 重庆大学 | 一种基于深度学习的地图匹配算法 |
CN114418093A (zh) * | 2022-01-19 | 2022-04-29 | 北京百度网讯科技有限公司 | 训练路径表征模型、输出信息的方法和装置 |
CN114548321A (zh) * | 2022-03-05 | 2022-05-27 | 昆明理工大学 | 基于对比学习的自监督舆情评论观点对象分类方法 |
CN114880586A (zh) * | 2022-06-07 | 2022-08-09 | 电子科技大学 | 一种通过移动性上下文感知基于对抗的社交圈推理方法 |
CN114896515A (zh) * | 2022-04-02 | 2022-08-12 | 哈尔滨工程大学 | 基于时间间隔的自监督学习协同序列推荐方法、设备和介质 |
CN115098613A (zh) * | 2022-07-04 | 2022-09-23 | 苏州大学 | 一种轨迹数据的追踪与预测方法、装置及介质 |
CN115120949A (zh) * | 2022-06-08 | 2022-09-30 | 乒乓动量机器人(昆山)有限公司 | 乒乓球机器人灵活击球策略的实现方法、系统及存储介质 |
CN115840857A (zh) * | 2023-02-22 | 2023-03-24 | 昆明理工大学 | 一种联合多元时空轨迹的群体行为模式挖掘方法 |
CN116186358A (zh) * | 2023-02-07 | 2023-05-30 | 和智信(山东)大数据科技有限公司 | 一种深度轨迹聚类方法、系统及存储介质 |
CN116894265A (zh) * | 2023-07-05 | 2023-10-17 | 中南大学 | 一种基于对抗学习的轨迹数据隐私保护方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108564129A (zh) * | 2018-04-24 | 2018-09-21 | 电子科技大学 | 一种基于生成对抗网络的轨迹数据分类方法 |
CN110826698A (zh) * | 2019-11-04 | 2020-02-21 | 电子科技大学 | 一种通过上下文相关的图嵌入表示人群移动模式的方法 |
CN112561191A (zh) * | 2020-12-22 | 2021-03-26 | 北京百度网讯科技有限公司 | 预测模型的训练、预测方法、装置、设备、程序和介质 |
CN112581515A (zh) * | 2020-11-13 | 2021-03-30 | 上海交通大学 | 基于图神经网络的户外场景点云配准方法 |
-
2021
- 2021-06-10 CN CN202110649825.6A patent/CN113378074A/zh not_active Withdrawn
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108564129A (zh) * | 2018-04-24 | 2018-09-21 | 电子科技大学 | 一种基于生成对抗网络的轨迹数据分类方法 |
CN110826698A (zh) * | 2019-11-04 | 2020-02-21 | 电子科技大学 | 一种通过上下文相关的图嵌入表示人群移动模式的方法 |
CN112581515A (zh) * | 2020-11-13 | 2021-03-30 | 上海交通大学 | 基于图神经网络的户外场景点云配准方法 |
CN112561191A (zh) * | 2020-12-22 | 2021-03-26 | 北京百度网讯科技有限公司 | 预测模型的训练、预测方法、装置、设备、程序和介质 |
Non-Patent Citations (1)
Title |
---|
基于自监督学习的社交网络用户轨迹预测模型: "基于自监督学习的社交网络用户轨迹预测模型", 《计算机应用》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114328791A (zh) * | 2021-12-30 | 2022-04-12 | 重庆大学 | 一种基于深度学习的地图匹配算法 |
CN114418093B (zh) * | 2022-01-19 | 2023-08-25 | 北京百度网讯科技有限公司 | 训练路径表征模型、输出信息的方法和装置 |
CN114418093A (zh) * | 2022-01-19 | 2022-04-29 | 北京百度网讯科技有限公司 | 训练路径表征模型、输出信息的方法和装置 |
CN114093014A (zh) * | 2022-01-20 | 2022-02-25 | 深圳前海中电慧安科技有限公司 | 一种图码关联强度计算方法、装置、设备及存储介质 |
CN114548321A (zh) * | 2022-03-05 | 2022-05-27 | 昆明理工大学 | 基于对比学习的自监督舆情评论观点对象分类方法 |
CN114896515A (zh) * | 2022-04-02 | 2022-08-12 | 哈尔滨工程大学 | 基于时间间隔的自监督学习协同序列推荐方法、设备和介质 |
CN114880586A (zh) * | 2022-06-07 | 2022-08-09 | 电子科技大学 | 一种通过移动性上下文感知基于对抗的社交圈推理方法 |
CN115120949A (zh) * | 2022-06-08 | 2022-09-30 | 乒乓动量机器人(昆山)有限公司 | 乒乓球机器人灵活击球策略的实现方法、系统及存储介质 |
CN115120949B (zh) * | 2022-06-08 | 2024-03-26 | 乒乓动量机器人(昆山)有限公司 | 乒乓球机器人灵活击球策略的实现方法、系统及存储介质 |
CN115098613A (zh) * | 2022-07-04 | 2022-09-23 | 苏州大学 | 一种轨迹数据的追踪与预测方法、装置及介质 |
CN115098613B (zh) * | 2022-07-04 | 2024-09-06 | 苏州大学 | 一种轨迹数据的追踪与预测方法、装置及介质 |
CN116186358A (zh) * | 2023-02-07 | 2023-05-30 | 和智信(山东)大数据科技有限公司 | 一种深度轨迹聚类方法、系统及存储介质 |
CN116186358B (zh) * | 2023-02-07 | 2023-08-15 | 和智信(山东)大数据科技有限公司 | 一种深度轨迹聚类方法、系统及存储介质 |
CN115840857A (zh) * | 2023-02-22 | 2023-03-24 | 昆明理工大学 | 一种联合多元时空轨迹的群体行为模式挖掘方法 |
CN115840857B (zh) * | 2023-02-22 | 2023-05-09 | 昆明理工大学 | 一种联合多元时空轨迹的群体行为模式挖掘方法 |
CN116894265A (zh) * | 2023-07-05 | 2023-10-17 | 中南大学 | 一种基于对抗学习的轨迹数据隐私保护方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113378074A (zh) | 一种基于自监督学习的社交网络用户轨迹分析方法 | |
Huang et al. | A deep learning approach for multi-attribute data: A study of train delay prediction in railway systems | |
Liu et al. | Physical-virtual collaboration modeling for intra-and inter-station metro ridership prediction | |
Singh et al. | A deeply coupled ConvNet for human activity recognition using dynamic and RGB images | |
CN111400620B (zh) | 基于时空嵌入Self-Attention的用户轨迹位置预测方法 | |
CN111080400B (zh) | 一种基于门控图卷积网络的商品推荐方法及系统、存储介质 | |
CN109858390A (zh) | 基于端到端时空图学习神经网络的人体骨架的行为识别方法 | |
Asadi et al. | A convolution recurrent autoencoder for spatio-temporal missing data imputation | |
Bilal et al. | A transfer learning-based efficient spatiotemporal human action recognition framework for long and overlapping action classes | |
Roy et al. | Action anticipation using pairwise human-object interactions and transformers | |
CN113780003A (zh) | 时空数据变分编解码跨模态增强方法 | |
Dai et al. | Hybrid deep model for human behavior understanding on industrial internet of video things | |
CN113920170A (zh) | 结合场景上下文和行人社会关系的行人轨迹预测方法、系统及存储介质 | |
Dessalene et al. | Egocentric object manipulation graphs | |
CN111723667A (zh) | 基于人体关节点坐标的智慧灯杆人群行为识别方法和装置 | |
An et al. | Pedestrian re-identification algorithm based on visual attention-positive sample generation network deep learning model | |
Mehrkanoon et al. | Incremental multi-class semi-supervised clustering regularized by Kalman filtering | |
Charalambous et al. | GREIL-crowds: crowd simulation with deep reinforcement learning and examples | |
Wang et al. | Fine-grained trajectory-based travel time estimation for multi-city scenarios based on deep meta-learning | |
Ke et al. | AutoSTG+: An automatic framework to discover the optimal network for spatio-temporal graph prediction | |
Yoon et al. | Evolution of deep learning-based sequential recommender systems: from current trends to new perspectives | |
Zhang et al. | Towards Urban General Intelligence: A Review and Outlook of Urban Foundation Models | |
Zhang et al. | A Survey of Generative Techniques for Spatial-Temporal Data Mining | |
Zhong et al. | A survey on deep learning techniques for action anticipation | |
Chen et al. | Next location prediction with a graph convolutional network based on a seq2seq framework |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210910 |