CN112800111B - 一种基于训练数据挖掘的位置预测方法 - Google Patents

一种基于训练数据挖掘的位置预测方法 Download PDF

Info

Publication number
CN112800111B
CN112800111B CN202110114662.1A CN202110114662A CN112800111B CN 112800111 B CN112800111 B CN 112800111B CN 202110114662 A CN202110114662 A CN 202110114662A CN 112800111 B CN112800111 B CN 112800111B
Authority
CN
China
Prior art keywords
user
negative
data
training
location
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110114662.1A
Other languages
English (en)
Other versions
CN112800111A (zh
Inventor
苏畅
冯昊祥
谢显中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202110114662.1A priority Critical patent/CN112800111B/zh
Publication of CN112800111A publication Critical patent/CN112800111A/zh
Application granted granted Critical
Publication of CN112800111B publication Critical patent/CN112800111B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Remote Sensing (AREA)
  • Fuzzy Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于训练数据挖掘的位置预测方法,属于位置预测领域。该方法包括:S1:获取用户‑位置交互数据;S2:分别对用户和位置的特征进行embedding;S3:选择正负样本;S4:使用基于流行度原则和信息量公式的负样本抽样算法抽取部分负样本;S5:通过两种不同的策略来挖掘Hard negative;S6:构建Hard selection strategy来训练负样本;S7:构建NDA‑GAN模型;S8:运用训练好的NDA‑GAN模型进行位置预测,得到TOP‑K排序,预测用户下一时刻可能访问的地点序列。本发明能够更加准确的预测用户将会访问的位置,提高位置预测系统的性能。

Description

一种基于训练数据挖掘的位置预测方法
技术领域
本发明属于位置预测领域,涉及一种基于NDA-GAN(负样本增强生成对抗网络)和深度学习的位置预测方法。
背景技术
近年来,LBSN发展十分迅速,通过天气时间社交等信息特征来预测用户的访问位置,根据用户的下个访问位置来进行其他应用,例如交通拥堵、位置推荐等,从而也推进了社交网络的发展。随着信息技术的快速发展,在位置预测系统中用户的信息变得多元化,各种各样的辅助信息可以被利用,从社交网络信息到天气信息、从时间信息到运动轨迹信息,从朋友信息到兴趣相投的陌生人信息,这些信息维度随着互联网技术的发展越来越高,从而使得位置预测系统能够更加准确的去描述用户和位置的特征,提升用户在位置预测系统中所提供服务的体验。
在位置预测领域,有很多研究者在该领域取得不错的效果,从传统的机器学习方法到深度学习方法都占有一席之地。随着LBSN的迅速发展,从Top-k预测到社交关系再到长短期时序性预测,位置预测系统考虑的对象逐渐从评分数据转向用户和位置的时序性的特征,因而位置预测系统所需处理多维数据的能力显得尤为重要。大多数位置预测系统利用提取到的用户特征和位置特征,通过这些特征预测用户下一时刻可能访问的位置,因而数据量和特征是准确的预测用户下一时刻可能访问位置的重要因素。
现如今,有较多研究把深度学习运用于位置预测系统,通过深度学习提取用户与位置的潜在特征,但没有考虑LBSN签到数据集的正负样本不平衡问题,不能够对用户-位置之间的关系进行深入地挖掘,推荐效果不佳。基于生成对抗网络的对抗式负样本生成可以有效起到扩充数据集的作用,作为样本生成的重要方法之一,生成式对抗网络(GAN)可以根据任意给定数据集中的数据分布生成样本,但它在实际的训练过程中存在生成样本纹理模糊,训练过程不稳定以及模式坍塌等问题。而负样本对于预测结果的精确性起到了至关重要的作用,负样本的引入可以极大程度上提高预测的精度问题并解决普遍存在的数据稀疏问题,因此,如何提取有效且可置信的负样本成为目前亟需解决的问题。
发明内容
有鉴于此,本发明的目的在于提供一种基于训练数据挖掘的位置预测方法,更加准确的预测用户将会访问的位置,提高位置预测系统的性能。
为达到上述目的,本发明提供如下技术方案:
一种基于训练数据挖掘的位置预测方法,具体包括以下步骤:
S1:获取用户-位置交互数据;
S2:分别对用户和位置的特征进行embedding;
S3:选择正负样本;
S4:使用基于流行度原则和信息量公式的负样本抽样算法抽取部分负样本;
S5:通过两种不同的策略来挖掘Hard negative;
S6:构建Hard selection strategy来训练负样本;
S7:使用正负样本训练生成对抗网络模型,形成负样本增强生成对抗网络(NDA-GAN)模型,使其能够辨别正负样本,并生成可置信数据;
S8:运用训练好的NDA-GAN模型进行位置预测,得到TOP-K排序,预测用户下一时刻可能访问的地点序列。
进一步,步骤S1中,获取的数据包括:用户、温度、经纬度、周、月、访问时长、降水量和风速;
关系对包括:{用户:周,用户:月,用户:用户,用户:访问时长,位置:降水量,位置:风速,位置:温度}。
进一步,步骤S3中,正样本的选择方式为:使用已访问过的位置作为正样本是最直观的,因为访问过表明用户对结果的反馈可能与用户的访问意图相匹配;
负样本的选择方式为:
(3)随机取样,对于每个访问,从数据集中随机抽取位置作为负样本;
(4)对于每个访问,随机抽取处于召回前列却没有被访问的位置结果作为负样本。
进一步,步骤S4中,使用基于流行度原则和信息量公式的负样本抽样算法抽取部分负样本,具体包括:首先根据每一个数据集的签到情况筛选出流行度高的位置列表,判断用户是否进行过签到,然后再结合信息量公式为每个用户从列表中抽取负样本;
其中,信息量公式为:
δ=-log pj
其中,δ表示信息量,pj表示用户p访问位置j的概率,例如,用户i在t时刻访问了位置,那么用户i在t时刻访问位置α的概率为1,即
Figure BDA0002917625020000021
所以用户i在t时刻一定不可能同时在位置β进行签到。公式如下:
Figure BDA0002917625020000031
在进行负样本抽样时要满足在同一时刻用户没有签到记录。
进一步,步骤S5中,通过不同的策略来挖掘Hard negative,具体包括:首先,由于负样本仅仅选取随机位置,特征单一,导致负样本的训练太过于容易。为了使模型能够更好的区分相似的结果,可以使用在embedding过程中更接近正样本的例子作为训练中的Hardnegative,方式如下:
由于模型是基于小批量训练更新的,所以可以在每一批次里面以动态且有效的方式选择hard negatives,每批包含n个正样本对
Figure BDA0002917625020000032
然后对于每个用户u(i),使用其他正样本位置信息
Figure BDA0002917625020000033
形成一个小的位置池,并选择排序后Top-k的地点作为最难选定的负样本来创建训练。
进一步,步骤S7中,形成负样本增强生成对抗网络NDA-GAN模型,具体包括:根据步骤S3~S6的方式选取出负样本后,为了进一步扩大负样本数据集来达到正负样本平衡的状态,根据每个用户和访问地点之间的逻辑关系构建用于生成负样本的生成对抗网络NDA-GAN,生成网络由一个编码器组成,它获取一条输入数据xi(来自负样本类),并将其映射到一个低维向量上;随机向量zi映射到同一维度后与该输入数据向量拼接,然后共同传递到解码器网络之中,解码器生成数据;对抗性判别器网络被训练用于区分来自真实数据分布的样本(同样来自负样本类的其他真实数据)和伪分布(从解码器生成网络生成的数据);对抗性训练使得网络可以从旧的数据中生成新的数据,这些数据看起来都在同一个负样本类中,但是也存在着不同,足以成为不同的样本。过程如下:
(1)随机初始化向量zi,其中z是满足高斯分布的变量可以提供最初的生成向量,如下公式所示:
z=N(0,I)
(2)生成数据:
v=f(z)
其中,f表示神经网络训练的实现,v是正在生成的向量(该向量在分布上应该与负样本数据类的分布保持一致);
(3)向判别器提供不同于生成器输入的xi但是来自于同一类的输入xj也是十分重要的,希望生成器能够生成和原始数据满足同一分布但是与当前数据的特征不相同的区别数据,通过选取不同的x可以防止生成网络编码器自动学习低阶相似特征;与此同时,不提供有关负样本类的信息,所以生成器必须学习与该负样本类能够保持一致的特征并归纳;
(4)建立损失函数,选取二分类问题常用损失函数BCELoss,公式如下:
Figure BDA0002917625020000041
loss(xi,yi)=-wi[yilog xi+(1-yi)log(1-xi)]
其中,ploss表示总体损失,
Figure BDA0002917625020000042
表示真实数据损失,
Figure BDA0002917625020000043
表示生成数据损失,output表示生成数据,lablereal表示条件对应标签,loss(xi,yi)表示损失值,wi表示权值,yi表示条件对应标签。
进一步,步骤S8中,运用构建好的NDA-GAN模型,将用户和位置用ui
Figure BDA0002917625020000044
的表示方式构成三元组
Figure BDA0002917625020000045
作为训练集T送入NDA-GAN模型中进行训练,利用训练好的模型去预测用户与新的位置的关系,预测结果代表了用户是否会在未来访问该位置,通过top-k排序生成用户将会访问的位置序列。
本发明的有益效果在于:本发明通过分析用户-位置交互关系,充分挖掘其规律,解决数据稀疏性和正负样本平衡性问题,并生成可置信的负样本扩充训练数据。本发明能够更加准确的预测用户将会访问的位置,提高位置预测系统的性能。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明位置预测方法的流程图;
图2为NDA-GAN模型示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
请参阅图1~图2,本发明所提出的基于训练数据挖掘的位置预测方法主要分为以下几部分内容:NDA-GAN模型构建、用户、位置特征embedding、挖掘并训练Hard negative、Top-k位置预测。
NDA-GAN模型构建:根据方法中负样本挖掘策略选取的负样本作为原数据集,如图2的方式构建NDA-GAN并对其进行训练,使其据有良好的数据模拟生成能力,生成更多符合真实数据分布的样本,构建NDA-GAN是整个模型中尤为重要的一步。
用户、位置特征embedding:分别对用户和位置的特征进行embedding,将稀疏向量表示为密集特征向量。
挖掘并训练Hard negative:首先使用负样本抽样算法抽样,然后选择排序后Top-k的地点作为最难选定的负样本来创建训练,同时使用难易混合训练方式以及将训练模式逐渐从“困难”模式转换到“简单”模式来训练Hard negative。
Top-k位置预测:运用提取的正负样本及特征训练深度神经网络模型,利用训练好的模型预测用户的位置,将预测结果进行top-k排序,从而得到最终的位置预测结果。
下面将结合附图对本方法的具体步骤进行详细的描述。
为了能够更加简洁且清晰的描述,对部分名词使用以下符号代替:
u:用户集合;
p:位置集合;
φ:用户-位置稀疏性矩阵;
Figure BDA0002917625020000051
用户位置三元组;
NDA-GAN:负样本增强生成对抗网络;
wu,p:用户-位置交互特征矩阵。
如图1所示,从图中可以看出整个位置预测方法主要由用户-位置特征embedding模块、NDA-GAN模型构建模块和Top-k预测模块三个部分顺序构成。用户-位置特征embedding模块包括从位置、天气、社交关系、时间等数据特征的embedding,从用户位置交互数据提取关系对、利用关系对构建NDA-GAN、构造三元组和Hard selection strategy来训练负样本;NDA-GAN模型构建模块包括构建NDA-GAN生成对抗网络,训练NDA-GAN,生成的负样本并用两种不同策略挖掘Hard negative;Top-k预测模块包括召回结果中排名靠后的位置作为负样本,对用户可能访问的位置集合做Top-k排序,并选取合适位置作为预测结果。
整个位置预测方法具体包括以下步骤:
步骤S1:获取用户-位置交互数据;
其中,获取的数据包括用户、温度、经纬度、周、月、访问时长、降水量、风速。关系对包括{用户:周,用户:月,用户:用户,用户:访问时长,位置:降水量,位置:风速,位置:温度}。
步骤S2:分别对用户和位置的特征进行embedding;
根据用户-位置交互数据进行特征的embedding,本质上embedding是将稀疏向量表示为密集特征向量的一种方式。
步骤S3:标记数据集中已访问的位置为正样本,随机选取的位置为负样本;
其中,正负样本的选择方式如下:
正样本的选择:
(1)使用已访问过的位置作为正样本是最直观的,因为访问过表明用户对结果的反馈可能与用户的访问意图相匹配.
负样本的选择:
(2)随机取样,对于每个访问,都从数据集中随机抽取位置作为负样本。
(3)对于每个访问,我们都随机抽取那些处于召回前列却没有被访问的位置结果作为负样本。
该方式可以有效解决数据稀疏性和正负样本不平衡问题,验证如下:
(1)在原始数据集上建立计算数据稀疏性矩阵的算法并计算原始数据集的数据稀疏性φ,数据稀疏性矩阵的构成是以用户-位置为横纵坐标的二维矩阵,当用户访问过某一地点时,将矩阵中该点置为1,否则,置为0,yij=1时表示用户i与位置j之间存在交互,表示用户i访问了位置j。然后,计算该二维矩阵的稀疏性,公式如下:
Figure BDA0002917625020000061
其中δ是用户去重后的总数,ε是位置去重后的总数。
(2)我们参考已提出的负样本抽样方式,认为当用户在流行度高的位置没有进行过签到的话,那么错过的位置更可能是用户真正不感兴趣的。首先根据每一个数据集的签到情况筛选出流行度高的位置列表,判断用户是否进行过签到,然后再结合信息量公式为每个用户从列表中抽取负样本。然后,当用户访问过某一地点时,将矩阵中该点置为1,否则,置为0,yij=1时表示用户i与位置j之间存在交互,表示用户i访问了位置j,不同的是,我们在该数据集组成的用户-位置矩阵中加入新值-1,yij=-1时表示用户i与位置j之间未来也不会存在交互,即为负样本,表示用户i不会访问位置j。然后计算该矩阵的稀疏性φ-,具体公式如下:
Figure BDA0002917625020000071
显然,φ-要远远小于φ。
步骤S4:使用一种基于流行度原则和信息量公式的负样本抽样算法抽取一定的负样本;具体包括:首先根据每一个数据集的签到情况筛选出流行度高的位置列表,判断用户是否进行过签到,然后再结合信息量公式为每个用户从列表中抽取负样本
δ=-log pj (3)
其中,pj表示用户p访问位置j的概率,例如,用户i在t时刻访问了位置,那么用户i在t时刻访问位置α的概率为1,即
Figure BDA0002917625020000072
所以用户i在t时刻一定不可能同时在位置β进行签到。公式如下:
Figure BDA0002917625020000073
在进行负样本抽样时要满足在同一时刻用户没有签到记录。
步骤S5:通过两种不同的策略来挖掘Hard negative;
通过不同的策略来挖掘Hard negative,首先,由于负样本仅仅选取随机位置,特征单一,导致负样本的训练太过于容易。为了使模型能够更好的区分相似的结果,我们可以使用在embedding过程中更接近正样本的例子作为训练中的Hard negative,方式如下:
由于模型是基于小批量训练更新的,所以可以在每一批次里面以动态且有效的方式选择hard negatives,每批包含n个正样本对
Figure BDA0002917625020000074
然后对于每个用户u(i),使用其他正样本位置信息
Figure BDA0002917625020000075
形成一个小的位置池,并选择排序后Top-k的地点作为最难选定的负样本来创建训练。
通过两种不同的策略来训练Hard negative,方法如下:
(1)难易混合训练方式:训练中混合随机选取的样本和Hard negative是有用的,实验发现增加容易和难以选择的负样本之比可以继续提高模型的召回率,并且在易:难=100:1左右时达到饱和。
(2)将训练模式逐渐从“困难”模式转换到“简单”模式:虽然将训练从“容易”模式转移到“困难”模式不会得到更好的训练效果,但是实验证明将训练从“困难”模式转移到“简单”模式将会实现召回率的进一步提高。
步骤S6:构建Hard selection strategy来训练负样本;
步骤S7:使用正负样本训练生成对抗网络模型使其能够辨别正负样本;
其中步骤S7中,使用正负样本训练生成对抗网络模型使其能够辨别正负样本,并生成可置信数据。根据S3到S6的方式选取出负样本后,我们想进一步的扩大负样本数据集来达到正负样本平衡的状态,根据每个用户和访问地点之间的逻辑关系构建一种用于生成负样本的生成对抗网络NDA-GAN,生成网络由一个编码器组成,它获取一条输入数据xi(来自负样本类),并将其映射到一个低维向量上。随机向量zi映射到同一维度后与该输入数据向量拼接,然后共同传递到解码器网络之中,解码器生成数据。对抗性判别性器网络被训练用于区分来自真是数据分布的样本(同样来自负样本类的其他真实数据)和伪分布(从解码器生成网络生成的数据)。对抗性训练使得网络可以从旧的数据中生成新的数据,这些数据看起来都在同一个负样本类中,但是也存在着不同,足以成为不同的样本。过程如下:
(1)随机初始化向量zi,其中z是满足高斯分布的变量可以提供最初的生成向量,如公式5所示:
z=N(0,I) (5)
(2)生成数据,其中f表示神经网络训练的实现,v是正在生成的向量(该向量在分布上应该与负样本数据类的分布保持一致),如公式6所示:
v=f(z) (6)
(3)同时,向判别器提供不同于生成器输入的xi但是来自于同一类的输入xj也是十分重要的,我们希望生成器能够生成和原始数据满足同一分布但是与当前数据的特征不相同的区别数据,通过选取不同的x可以防止生成网络编码器自动学习低阶相似特征。与此同时,我们不提供有关负样本类的信息,所以生成器必须学习与该负样本类能够保持一致的特征并归纳。
(4)建立损失函数,这里我们选取二分类问题常用损失函数BCELoss,公式如下:
Figure BDA0002917625020000081
loss(xi,yi)=-wi[yilog xi+(1-yi)log(1-xi)] (8)
步骤S8:运用训练好的模型进行位置预测,得到TOP-K排序,预测用户下一时刻可能访问的地点序列。
运用构建好的深度神经网络模型,将用户和位置用ui
Figure BDA0002917625020000091
的表示方式构成三元组
Figure BDA0002917625020000092
作为训练集T送入深度神经网络中进行训练,利用训练好的模型去预测用户与新的位置的关系,预测结果代表了用户是否会在未来访问该位置,通过top-k排序生成用户将会访问的位置序列。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (5)

1.一种基于训练数据挖掘的位置预测方法,其特征在于,该方法具体包括以下步骤:
S1:获取用户-位置交互数据;
S2:分别对用户和位置的特征进行embedding;
S3:选择正负样本;
S4:使用基于流行度原则和信息量公式的负样本抽样算法抽取部分负样本,具体包括:首先根据每一个数据集的签到情况筛选出流行度高的位置列表,判断用户是否进行过签到,然后再结合信息量公式为每个用户从列表中抽取负样本;
其中,信息量公式为:
δ=-log pj
其中,δ表示信息量,pj表示用户p访问位置j的概率;在进行负样本抽样时要满足在同一时刻用户没有签到记录;
S5:通过两种不同的策略来挖掘Hard negative;
S6:构建Hard selection strategy来训练负样本;
S7:使用正负样本训练生成对抗网络模型,形成负样本增强生成对抗网络NDA-GAN模型,使其能够辨别正负样本,并生成可置信数据;
形成负样本增强生成对抗网络NDA-GAN模型,具体包括:根据步骤S3~S6的方式选取出负样本后,根据每个用户和访问地点之间的逻辑关系构建用于生成负样本的生成对抗网络NDA-GAN,生成网络由一个编码器组成,它获取一条输入数据xi,并将其映射到一个低维向量上;随机向量zi映射到同一维度后与该输入数据向量拼接,然后共同传递到解码器网络之中,解码器生成数据;对抗性判别器网络被训练用于区分来自真实数据分布的样本和伪分布;过程如下:
(1)随机初始化向量zi,其中z是满足高斯分布的变量,如下公式所示:
z=N(0,I)
(2)生成数据:
v=f(z)
其中,f表示神经网络训练的实现,v是正在生成的向量;
(3)向判别器提供不同于生成器输入的xi但是来自于同一类的输入xj同时,不提供有关负样本类的信息,生成器必须学习与该负样本类能够保持一致的特征并归纳;
(4)建立损失函数,选取二分类问题常用损失函数BCELoss,公式如下:
Figure FDA0003712394720000021
loss(xi,yi)=-wi[yilogxi+(1-yi)log(1-xi)]
其中,ploss表示总体损失,
Figure FDA0003712394720000022
表示真实数据损失,
Figure FDA0003712394720000023
表示生成数据损失,output表示生成数据,lablereal表示条件对应标签,loss(xi,yi)表示损失值,wi表示权值,yi表示条件对应标签;
S8:运用训练好的NDA-GAN模型进行位置预测,得到TOP-K排序,预测用户下一时刻可能访问的地点序列。
2.根据权利要求1所述的位置预测方法,其特征在于,步骤S1中,获取的数据包括:用户、温度、经纬度、周、月、访问时长、降水量和风速;
关系对包括:{用户:周,用户:月,用户:用户,用户:访问时长,位置:降水量,位置:风速,位置:温度}。
3.根据权利要求1所述的位置预测方法,其特征在于,步骤S3中,正样本的选择方式为:使用已访问过的位置作为正样本;
负样本的选择方式为:
(1)随机取样,对于每个访问,从数据集中随机抽取位置作为负样本;
(2)对于每个访问,随机抽取处于召回前列却没有被访问的位置结果作为负样本。
4.根据权利要求1所述的位置预测方法,其特征在于,步骤S5中,通过不同的策略来挖掘Hard negative,具体包括:首先,使用在embedding过程中更接近正样本的例子作为训练中的Hard negative,方式如下:
在每一批次里面以动态且有效的方式选择hard negatives,每批包含n个正样本对
Figure FDA0003712394720000024
然后对于每个用户u(i),使用其他正样本位置信息
Figure FDA0003712394720000025
形成一个小的位置池,并选择排序后Top-k的地点作为最难选定的负样本来创建训练。
5.根据权利要求1所述的位置预测方法,其特征在于,步骤S8中,运用构建好的NDA-GAN模型,将用户和位置用ui
Figure FDA0003712394720000026
的表示方式构成三元组
Figure FDA0003712394720000027
作为训练集T送入NDA-GAN模型中进行训练,利用训练好的模型去预测用户与新的位置的关系,预测结果代表了用户是否会在未来访问该位置,通过top-k排序生成用户将会访问的位置序列。
CN202110114662.1A 2021-01-26 2021-01-26 一种基于训练数据挖掘的位置预测方法 Active CN112800111B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110114662.1A CN112800111B (zh) 2021-01-26 2021-01-26 一种基于训练数据挖掘的位置预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110114662.1A CN112800111B (zh) 2021-01-26 2021-01-26 一种基于训练数据挖掘的位置预测方法

Publications (2)

Publication Number Publication Date
CN112800111A CN112800111A (zh) 2021-05-14
CN112800111B true CN112800111B (zh) 2022-08-02

Family

ID=75812237

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110114662.1A Active CN112800111B (zh) 2021-01-26 2021-01-26 一种基于训练数据挖掘的位置预测方法

Country Status (1)

Country Link
CN (1) CN112800111B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115048907B (zh) * 2022-05-31 2024-02-27 北京深言科技有限责任公司 文本数据质量确定的方法及装置
CN116610857B (zh) * 2023-04-10 2024-05-03 南京邮电大学 一种基于用户对岗位流行度偏好的个性化岗位推荐方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108681774A (zh) * 2018-05-11 2018-10-19 电子科技大学 基于生成对抗网络负样本增强的人体目标跟踪方法
CN110555717A (zh) * 2019-07-29 2019-12-10 华南理工大学 基于用户行为特征挖掘用户潜在购买商品和品类的方法
CN110895879A (zh) * 2019-11-26 2020-03-20 浙江大华技术股份有限公司 同行车的检测方法及装置、存储介质、电子装置
CN111832511A (zh) * 2020-07-21 2020-10-27 中国石油大学(华东) 一种增强样本数据的无监督行人重识别方法
CN111988744A (zh) * 2020-08-31 2020-11-24 重庆邮电大学 一种基于用户移动模式的位置预测方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130268558A1 (en) * 2012-03-07 2013-10-10 Snap Trends, Inc. Methods and Systems of Aggregating Information of Social Networks Based on Changing Geographical Locations of a Computing Device Via a Network
CN106021290A (zh) * 2016-04-29 2016-10-12 中国科学院信息工程研究所 一种基于多尺度地理信息的社交网络关联挖掘方法
CN108021931A (zh) * 2017-11-20 2018-05-11 阿里巴巴集团控股有限公司 一种数据样本标签处理方法及装置
CN110085215B (zh) * 2018-01-23 2021-06-08 中国科学院声学研究所 一种基于生成对抗网络的语言模型数据增强方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108681774A (zh) * 2018-05-11 2018-10-19 电子科技大学 基于生成对抗网络负样本增强的人体目标跟踪方法
CN110555717A (zh) * 2019-07-29 2019-12-10 华南理工大学 基于用户行为特征挖掘用户潜在购买商品和品类的方法
CN110895879A (zh) * 2019-11-26 2020-03-20 浙江大华技术股份有限公司 同行车的检测方法及装置、存储介质、电子装置
CN111832511A (zh) * 2020-07-21 2020-10-27 中国石油大学(华东) 一种增强样本数据的无监督行人重识别方法
CN111988744A (zh) * 2020-08-31 2020-11-24 重庆邮电大学 一种基于用户移动模式的位置预测方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
Cloud-aided SDR solution for lane-specific vehicle positioning via Local Interference Compensation;Brian Niehoefer等;《2014 IEEE Aerospace Conference》;20140619;1-5 *
Location Prediction Based on Comment Analysis;Chang Su等;《2019 15th International Wireless Communications & Mobile Computing Conference (IWCMC)》;20190722;1-4 *
具有显著姿态变化的长时间人体目标跟踪算法研究;周琦栋;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20180915(第9期);I138-333 *
基于用户偏好挖掘生成对抗网络的推荐系统;李广丽等;《计算机科学与探索》;20190711;803-814 *
目标跟踪中的数据增强算法研究;陈科鑫;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20200715(第7期);I138-872 *
静态背景下的多目标跟踪方法研究;赵明;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20180315(第3期);I138-1601 *

Also Published As

Publication number Publication date
CN112800111A (zh) 2021-05-14

Similar Documents

Publication Publication Date Title
Zheng et al. GeoLife: A collaborative social networking service among user, location and trajectory.
Jiang et al. Learning from contextual information of geo-tagged web photos to rank personalized tourism attractions
CN111160471B (zh) 一种兴趣点数据处理方法、装置、电子设备和存储介质
CN110287336B (zh) 一种面向旅游景点推荐的游客画像构建方法
Jiao et al. A novel next new point-of-interest recommendation system based on simulated user travel decision-making process
CN102033947B (zh) 一种基于检索词的地域识别装置及方法
CN112800111B (zh) 一种基于训练数据挖掘的位置预测方法
Xu et al. Application of a graph convolutional network with visual and semantic features to classify urban scenes
Hu et al. Nonnegative matrix tri-factorization with user similarity for clustering in point-of-interest
Chen et al. Next POI recommendation based on location interest mining with recurrent neural networks
CN112528639B (zh) 对象识别方法和装置、存储介质及电子设备
Xia et al. Exploring the effects of partitioned transition rules upon urban growth simulation in a megacity region: A comparative study of cellular automata-based models in the Greater Wuhan Area
Kamath et al. Spatio-temporal meme prediction: learning what hashtags will be popular where
Wang et al. ST-SAGE: A spatial-temporal sparse additive generative model for spatial item recommendation
CN115422441A (zh) 一种基于社交时空信息与用户偏好的连续兴趣点推荐方法
Zhuang et al. Integrating a deep forest algorithm with vector‐based cellular automata for urban land change simulation
CN110008411A (zh) 一种基于用户签到稀疏矩阵的深度学习兴趣点推荐方法
Wu et al. Urban functional area recognition based on unbalanced clustering
CN113742586B (zh) 一种基于知识图谱嵌入的学习资源推荐方法及系统
Zhang et al. Parallel computing solutions for Markov chain spatial sequential simulation of categorical fields
Shimizu et al. Improving land use classification using human mobility-based hierarchical place embeddings
Georgati et al. Spatial Disaggregation of Population Subgroups Leveraging Self-Trained Multi-Output Gradient Boosting Regression Trees
Du et al. Similarity measurements on multi‐scale qualitative locations
Mete Geospatial Big Data Analytics for Sustainable Smart Cities
CN115130570A (zh) 一种脉冲星搜索模型的训练方法、应用方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant