CN112800111B

CN112800111B - 一种基于训练数据挖掘的位置预测方法

Info

Publication number: CN112800111B
Application number: CN202110114662.1A
Authority: CN
Inventors: 苏畅; 冯昊祥; 谢显中
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2021-01-26
Filing date: 2021-01-26
Publication date: 2022-08-02
Anticipated expiration: 2041-01-26
Also published as: CN112800111A

Abstract

本发明涉及一种基于训练数据挖掘的位置预测方法，属于位置预测领域。该方法包括：S1：获取用户‑位置交互数据；S2：分别对用户和位置的特征进行embedding；S3：选择正负样本；S4：使用基于流行度原则和信息量公式的负样本抽样算法抽取部分负样本；S5：通过两种不同的策略来挖掘Hard negative；S6：构建Hard selection strategy来训练负样本；S7：构建NDA‑GAN模型；S8：运用训练好的NDA‑GAN模型进行位置预测，得到TOP‑K排序，预测用户下一时刻可能访问的地点序列。本发明能够更加准确的预测用户将会访问的位置，提高位置预测系统的性能。

Description

一种基于训练数据挖掘的位置预测方法

技术领域

本发明属于位置预测领域，涉及一种基于NDA-GAN(负样本增强生成对抗网络)和深度学习的位置预测方法。

背景技术

近年来，LBSN发展十分迅速，通过天气时间社交等信息特征来预测用户的访问位置，根据用户的下个访问位置来进行其他应用，例如交通拥堵、位置推荐等，从而也推进了社交网络的发展。随着信息技术的快速发展，在位置预测系统中用户的信息变得多元化，各种各样的辅助信息可以被利用，从社交网络信息到天气信息、从时间信息到运动轨迹信息，从朋友信息到兴趣相投的陌生人信息，这些信息维度随着互联网技术的发展越来越高，从而使得位置预测系统能够更加准确的去描述用户和位置的特征，提升用户在位置预测系统中所提供服务的体验。

在位置预测领域，有很多研究者在该领域取得不错的效果，从传统的机器学习方法到深度学习方法都占有一席之地。随着LBSN的迅速发展，从Top-k预测到社交关系再到长短期时序性预测，位置预测系统考虑的对象逐渐从评分数据转向用户和位置的时序性的特征，因而位置预测系统所需处理多维数据的能力显得尤为重要。大多数位置预测系统利用提取到的用户特征和位置特征，通过这些特征预测用户下一时刻可能访问的位置，因而数据量和特征是准确的预测用户下一时刻可能访问位置的重要因素。

现如今，有较多研究把深度学习运用于位置预测系统，通过深度学习提取用户与位置的潜在特征，但没有考虑LBSN签到数据集的正负样本不平衡问题，不能够对用户-位置之间的关系进行深入地挖掘，推荐效果不佳。基于生成对抗网络的对抗式负样本生成可以有效起到扩充数据集的作用，作为样本生成的重要方法之一，生成式对抗网络(GAN)可以根据任意给定数据集中的数据分布生成样本，但它在实际的训练过程中存在生成样本纹理模糊，训练过程不稳定以及模式坍塌等问题。而负样本对于预测结果的精确性起到了至关重要的作用，负样本的引入可以极大程度上提高预测的精度问题并解决普遍存在的数据稀疏问题，因此，如何提取有效且可置信的负样本成为目前亟需解决的问题。

发明内容

有鉴于此，本发明的目的在于提供一种基于训练数据挖掘的位置预测方法，更加准确的预测用户将会访问的位置，提高位置预测系统的性能。

为达到上述目的，本发明提供如下技术方案：

一种基于训练数据挖掘的位置预测方法，具体包括以下步骤：

S1：获取用户-位置交互数据；

S2：分别对用户和位置的特征进行embedding；

S3：选择正负样本；

S4：使用基于流行度原则和信息量公式的负样本抽样算法抽取部分负样本；

S5：通过两种不同的策略来挖掘Hard negative；

S6：构建Hard selection strategy来训练负样本；

S7：使用正负样本训练生成对抗网络模型，形成负样本增强生成对抗网络(NDA-GAN)模型，使其能够辨别正负样本，并生成可置信数据；

S8：运用训练好的NDA-GAN模型进行位置预测，得到TOP-K排序，预测用户下一时刻可能访问的地点序列。

进一步，步骤S1中，获取的数据包括：用户、温度、经纬度、周、月、访问时长、降水量和风速；

关系对包括：{用户：周，用户：月，用户：用户，用户：访问时长，位置：降水量，位置：风速，位置：温度}。

进一步，步骤S3中，正样本的选择方式为：使用已访问过的位置作为正样本是最直观的，因为访问过表明用户对结果的反馈可能与用户的访问意图相匹配；

负样本的选择方式为：

(3)随机取样，对于每个访问，从数据集中随机抽取位置作为负样本；

(4)对于每个访问，随机抽取处于召回前列却没有被访问的位置结果作为负样本。

进一步，步骤S4中，使用基于流行度原则和信息量公式的负样本抽样算法抽取部分负样本，具体包括：首先根据每一个数据集的签到情况筛选出流行度高的位置列表，判断用户是否进行过签到，然后再结合信息量公式为每个用户从列表中抽取负样本；

其中，信息量公式为：

δ＝-log p_j

其中，δ表示信息量，p_j表示用户p访问位置j的概率，例如，用户i在t时刻访问了位置，那么用户i在t时刻访问位置α的概率为1，即

所以用户i在t时刻一定不可能同时在位置β进行签到。公式如下：

在进行负样本抽样时要满足在同一时刻用户没有签到记录。

进一步，步骤S5中，通过不同的策略来挖掘Hard negative，具体包括：首先，由于负样本仅仅选取随机位置，特征单一，导致负样本的训练太过于容易。为了使模型能够更好的区分相似的结果，可以使用在embedding过程中更接近正样本的例子作为训练中的Hardnegative，方式如下：

由于模型是基于小批量训练更新的，所以可以在每一批次里面以动态且有效的方式选择hard negatives，每批包含n个正样本对

然后对于每个用户u⁽ⁱ⁾，使用其他正样本位置信息

形成一个小的位置池，并选择排序后Top-k的地点作为最难选定的负样本来创建训练。

进一步，步骤S7中，形成负样本增强生成对抗网络NDA-GAN模型，具体包括：根据步骤S3～S6的方式选取出负样本后，为了进一步扩大负样本数据集来达到正负样本平衡的状态，根据每个用户和访问地点之间的逻辑关系构建用于生成负样本的生成对抗网络NDA-GAN，生成网络由一个编码器组成，它获取一条输入数据x_i(来自负样本类)，并将其映射到一个低维向量上；随机向量z_i映射到同一维度后与该输入数据向量拼接，然后共同传递到解码器网络之中，解码器生成数据；对抗性判别器网络被训练用于区分来自真实数据分布的样本(同样来自负样本类的其他真实数据)和伪分布(从解码器生成网络生成的数据)；对抗性训练使得网络可以从旧的数据中生成新的数据，这些数据看起来都在同一个负样本类中，但是也存在着不同，足以成为不同的样本。过程如下：

(1)随机初始化向量z_i，其中z是满足高斯分布的变量可以提供最初的生成向量，如下公式所示：

z＝N(0,I)

(2)生成数据：

v＝f(z)

其中，f表示神经网络训练的实现，v是正在生成的向量(该向量在分布上应该与负样本数据类的分布保持一致)；

(3)向判别器提供不同于生成器输入的x_i但是来自于同一类的输入x_j也是十分重要的，希望生成器能够生成和原始数据满足同一分布但是与当前数据的特征不相同的区别数据，通过选取不同的x可以防止生成网络编码器自动学习低阶相似特征；与此同时，不提供有关负样本类的信息，所以生成器必须学习与该负样本类能够保持一致的特征并归纳；

(4)建立损失函数，选取二分类问题常用损失函数BCELoss，公式如下：

loss(x_i,y_i)＝-w_i[y_ilog x_i+(1-y_i)log(1-x_i)]

其中，p_loss表示总体损失，

表示真实数据损失，

表示生成数据损失，output表示生成数据，lable_real表示条件对应标签，loss(x_i,y_i)表示损失值，w_i表示权值，y_i表示条件对应标签。

进一步，步骤S8中，运用构建好的NDA-GAN模型，将用户和位置用u_i，

的表示方式构成三元组

作为训练集T送入NDA-GAN模型中进行训练，利用训练好的模型去预测用户与新的位置的关系，预测结果代表了用户是否会在未来访问该位置，通过top-k排序生成用户将会访问的位置序列。

本发明的有益效果在于：本发明通过分析用户-位置交互关系，充分挖掘其规律，解决数据稀疏性和正负样本平衡性问题，并生成可置信的负样本扩充训练数据。本发明能够更加准确的预测用户将会访问的位置，提高位置预测系统的性能。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明位置预测方法的流程图；

图2为NDA-GAN模型示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

请参阅图1～图2，本发明所提出的基于训练数据挖掘的位置预测方法主要分为以下几部分内容：NDA-GAN模型构建、用户、位置特征embedding、挖掘并训练Hard negative、Top-k位置预测。

NDA-GAN模型构建：根据方法中负样本挖掘策略选取的负样本作为原数据集，如图2的方式构建NDA-GAN并对其进行训练，使其据有良好的数据模拟生成能力，生成更多符合真实数据分布的样本，构建NDA-GAN是整个模型中尤为重要的一步。

用户、位置特征embedding：分别对用户和位置的特征进行embedding，将稀疏向量表示为密集特征向量。

挖掘并训练Hard negative：首先使用负样本抽样算法抽样，然后选择排序后Top-k的地点作为最难选定的负样本来创建训练，同时使用难易混合训练方式以及将训练模式逐渐从“困难”模式转换到“简单”模式来训练Hard negative。

Top-k位置预测：运用提取的正负样本及特征训练深度神经网络模型，利用训练好的模型预测用户的位置，将预测结果进行top-k排序，从而得到最终的位置预测结果。

下面将结合附图对本方法的具体步骤进行详细的描述。

为了能够更加简洁且清晰的描述，对部分名词使用以下符号代替：

u：用户集合；

p：位置集合；

φ：用户-位置稀疏性矩阵；

用户位置三元组；

NDA-GAN：负样本增强生成对抗网络；

w_u,p：用户-位置交互特征矩阵。

如图1所示，从图中可以看出整个位置预测方法主要由用户-位置特征embedding模块、NDA-GAN模型构建模块和Top-k预测模块三个部分顺序构成。用户-位置特征embedding模块包括从位置、天气、社交关系、时间等数据特征的embedding，从用户位置交互数据提取关系对、利用关系对构建NDA-GAN、构造三元组和Hard selection strategy来训练负样本；NDA-GAN模型构建模块包括构建NDA-GAN生成对抗网络，训练NDA-GAN，生成的负样本并用两种不同策略挖掘Hard negative；Top-k预测模块包括召回结果中排名靠后的位置作为负样本，对用户可能访问的位置集合做Top-k排序，并选取合适位置作为预测结果。

整个位置预测方法具体包括以下步骤：

步骤S1：获取用户-位置交互数据；

其中，获取的数据包括用户、温度、经纬度、周、月、访问时长、降水量、风速。关系对包括{用户：周，用户：月，用户：用户，用户：访问时长，位置：降水量，位置：风速，位置：温度}。

步骤S2：分别对用户和位置的特征进行embedding；

根据用户-位置交互数据进行特征的embedding，本质上embedding是将稀疏向量表示为密集特征向量的一种方式。

步骤S3：标记数据集中已访问的位置为正样本，随机选取的位置为负样本；

其中，正负样本的选择方式如下：

正样本的选择：

(1)使用已访问过的位置作为正样本是最直观的，因为访问过表明用户对结果的反馈可能与用户的访问意图相匹配.

负样本的选择：

(2)随机取样，对于每个访问，都从数据集中随机抽取位置作为负样本。

(3)对于每个访问，我们都随机抽取那些处于召回前列却没有被访问的位置结果作为负样本。

该方式可以有效解决数据稀疏性和正负样本不平衡问题，验证如下：

(1)在原始数据集上建立计算数据稀疏性矩阵的算法并计算原始数据集的数据稀疏性φ，数据稀疏性矩阵的构成是以用户-位置为横纵坐标的二维矩阵，当用户访问过某一地点时，将矩阵中该点置为1，否则，置为0，y_ij＝1时表示用户i与位置j之间存在交互，表示用户i访问了位置j。然后，计算该二维矩阵的稀疏性，公式如下：

其中δ是用户去重后的总数，ε是位置去重后的总数。

(2)我们参考已提出的负样本抽样方式，认为当用户在流行度高的位置没有进行过签到的话，那么错过的位置更可能是用户真正不感兴趣的。首先根据每一个数据集的签到情况筛选出流行度高的位置列表，判断用户是否进行过签到，然后再结合信息量公式为每个用户从列表中抽取负样本。然后，当用户访问过某一地点时，将矩阵中该点置为1，否则，置为0，y_ij＝1时表示用户i与位置j之间存在交互，表示用户i访问了位置j，不同的是，我们在该数据集组成的用户-位置矩阵中加入新值-1，y_ij＝-1时表示用户i与位置j之间未来也不会存在交互，即为负样本，表示用户i不会访问位置j。然后计算该矩阵的稀疏性φ_-，具体公式如下：

显然，φ_-要远远小于φ。

步骤S4：使用一种基于流行度原则和信息量公式的负样本抽样算法抽取一定的负样本；具体包括：首先根据每一个数据集的签到情况筛选出流行度高的位置列表，判断用户是否进行过签到，然后再结合信息量公式为每个用户从列表中抽取负样本

δ＝-log p_j (3)

其中，p_j表示用户p访问位置j的概率，例如，用户i在t时刻访问了位置，那么用户i在t时刻访问位置α的概率为1，即

在进行负样本抽样时要满足在同一时刻用户没有签到记录。

步骤S5：通过两种不同的策略来挖掘Hard negative；

通过不同的策略来挖掘Hard negative，首先，由于负样本仅仅选取随机位置，特征单一，导致负样本的训练太过于容易。为了使模型能够更好的区分相似的结果，我们可以使用在embedding过程中更接近正样本的例子作为训练中的Hard negative，方式如下：

然后对于每个用户u⁽ⁱ⁾，使用其他正样本位置信息

通过两种不同的策略来训练Hard negative，方法如下：

(1)难易混合训练方式：训练中混合随机选取的样本和Hard negative是有用的，实验发现增加容易和难以选择的负样本之比可以继续提高模型的召回率，并且在易:难＝100:1左右时达到饱和。

(2)将训练模式逐渐从“困难”模式转换到“简单”模式：虽然将训练从“容易”模式转移到“困难”模式不会得到更好的训练效果，但是实验证明将训练从“困难”模式转移到“简单”模式将会实现召回率的进一步提高。

步骤S6：构建Hard selection strategy来训练负样本；

步骤S7：使用正负样本训练生成对抗网络模型使其能够辨别正负样本；

其中步骤S7中，使用正负样本训练生成对抗网络模型使其能够辨别正负样本，并生成可置信数据。根据S3到S6的方式选取出负样本后，我们想进一步的扩大负样本数据集来达到正负样本平衡的状态，根据每个用户和访问地点之间的逻辑关系构建一种用于生成负样本的生成对抗网络NDA-GAN，生成网络由一个编码器组成，它获取一条输入数据x_i(来自负样本类)，并将其映射到一个低维向量上。随机向量z_i映射到同一维度后与该输入数据向量拼接，然后共同传递到解码器网络之中，解码器生成数据。对抗性判别性器网络被训练用于区分来自真是数据分布的样本(同样来自负样本类的其他真实数据)和伪分布(从解码器生成网络生成的数据)。对抗性训练使得网络可以从旧的数据中生成新的数据，这些数据看起来都在同一个负样本类中，但是也存在着不同，足以成为不同的样本。过程如下：

(1)随机初始化向量z_i，其中z是满足高斯分布的变量可以提供最初的生成向量，如公式5所示：

z＝N(0,I) (5)

(2)生成数据，其中f表示神经网络训练的实现，v是正在生成的向量(该向量在分布上应该与负样本数据类的分布保持一致)，如公式6所示：

v＝f(z) (6)

(3)同时，向判别器提供不同于生成器输入的x_i但是来自于同一类的输入x_j也是十分重要的，我们希望生成器能够生成和原始数据满足同一分布但是与当前数据的特征不相同的区别数据，通过选取不同的x可以防止生成网络编码器自动学习低阶相似特征。与此同时，我们不提供有关负样本类的信息，所以生成器必须学习与该负样本类能够保持一致的特征并归纳。

(4)建立损失函数，这里我们选取二分类问题常用损失函数BCELoss，公式如下：

loss(x_i,y_i)＝-w_i[y_ilog x_i+(1-y_i)log(1-x_i)] (8)

步骤S8：运用训练好的模型进行位置预测，得到TOP-K排序，预测用户下一时刻可能访问的地点序列。

运用构建好的深度神经网络模型，将用户和位置用u_i，

的表示方式构成三元组

作为训练集T送入深度神经网络中进行训练，利用训练好的模型去预测用户与新的位置的关系，预测结果代表了用户是否会在未来访问该位置，通过top-k排序生成用户将会访问的位置序列。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于训练数据挖掘的位置预测方法，其特征在于，该方法具体包括以下步骤：

S1：获取用户-位置交互数据；

S2：分别对用户和位置的特征进行embedding；

S3：选择正负样本；

S4：使用基于流行度原则和信息量公式的负样本抽样算法抽取部分负样本，具体包括：首先根据每一个数据集的签到情况筛选出流行度高的位置列表，判断用户是否进行过签到，然后再结合信息量公式为每个用户从列表中抽取负样本；

其中，信息量公式为：

δ＝-log p_j

其中，δ表示信息量，p_j表示用户p访问位置j的概率；在进行负样本抽样时要满足在同一时刻用户没有签到记录；

S5：通过两种不同的策略来挖掘Hard negative；

S6：构建Hard selection strategy来训练负样本；

S7：使用正负样本训练生成对抗网络模型，形成负样本增强生成对抗网络NDA-GAN模型，使其能够辨别正负样本，并生成可置信数据；

形成负样本增强生成对抗网络NDA-GAN模型，具体包括：根据步骤S3～S6的方式选取出负样本后，根据每个用户和访问地点之间的逻辑关系构建用于生成负样本的生成对抗网络NDA-GAN，生成网络由一个编码器组成，它获取一条输入数据x_i，并将其映射到一个低维向量上；随机向量z_i映射到同一维度后与该输入数据向量拼接，然后共同传递到解码器网络之中，解码器生成数据；对抗性判别器网络被训练用于区分来自真实数据分布的样本和伪分布；过程如下：

(1)随机初始化向量z_i，其中z是满足高斯分布的变量，如下公式所示：

z＝N(0,I)

(2)生成数据：

v＝f(z)

其中，f表示神经网络训练的实现，v是正在生成的向量；

(3)向判别器提供不同于生成器输入的x_i但是来自于同一类的输入x_j同时，不提供有关负样本类的信息，生成器必须学习与该负样本类能够保持一致的特征并归纳；