CN115033915A

CN115033915A - 一种基于生成对抗网络的敏感标签轨迹数据差分隐私发布方法

Info

Publication number: CN115033915A
Application number: CN202210629788.7A
Authority: CN
Inventors: 姚琳; 郑兆龙; 吴国伟; 张宇
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2022-06-06
Filing date: 2022-06-06
Publication date: 2022-09-09
Anticipated expiration: 2042-06-06
Also published as: CN115033915B

Abstract

本发明属于信息安全技术领域，提供了一种基于生成对抗网络的敏感标签轨迹数据差分隐私发布方法。首先确定出泄露用户敏感属性的敏感停止点，并且删除用户轨迹中的异常点。然后将停止点和敏感属性映射为顶点，将时空点间的迁移映射为边，建立了有向加权图。然后引入WGAN‑GP模型来训练隐私预算ε添加噪声实现差分隐私，并采用动态隐私预算分配和自适应裁剪阈值选择方法优化训练模型。最后通过遍历加噪后的图模型还原轨迹数据进行发布。本发明设通过图模型的设计同时对敏感标签和轨迹数据加噪，并且引入了GAN技术对隐私预算进行训练，在保证数据隐私性的前提下，提高了数据的可用性。

Description

一种基于生成对抗网络的敏感标签轨迹数据差分隐私发布方法

技术领域

本发明涉及一种基于生成对抗网络的敏感标签轨迹数据差分隐私发布方法，属于信息安全技术领域。

背景技术

随着位置感知技术的发展，轨迹数据越来越容易被收集并应用到城市交通、移动医疗等方面，为用户提供更好的服务。但当轨迹数据与疾病、工作等属性一起收集时，往往包含大量的用户敏感信息，如果未对这些数据进行有效的隐私处理而直接发布，攻击者很容易发动背景知识攻击，探测用户隐私信息。为解决轨迹数据发布中存在的隐私泄露问题，差分隐私(Differential Privacy,DP)是目前用来防范发布过程中的隐私泄露的主要技术。DP作为一种拥有严格数学证明的隐私保护技术，与传统的匿名策略不同，采用隐私预算量化隐私保护程度，无论攻击者掌握多少先验背景知识，都无法侵犯数据隐私。数据集被满足差分隐私的算法保护后，改变数据集中任一一条的记录都不会显著改变算法的输出结果，从而使得攻击者无法推理出任何敏感信息。

现有的轨迹隐私保护方式主要分为基于分区和差分隐私两种。基于分区的保护方式在已知攻击者一定背景知识的情况下，进行方案设计；差分隐私无需考虑到攻击者背景知识，主要通过添加隐私预算兼容隐私性和可用性。基于分区的保护算法，主要通过k-匿名、l-多样性等模型保护轨迹数据，这些方法对隐私保护的程度需要考虑到攻击者的背景知识掌握情况，一旦攻击者所掌握的背景知识高于设定值，则无法保证隐私保护的效果。现有的差分隐私轨迹数据发布机制主要采用前缀树、匿名迁移等方法通过为轨迹数据整体添加噪音实现用户的隐私保护，但缺少对不同频率、不同敏感程度的轨迹点隐私预算分配问题的考虑，对所有轨迹数据添加统一的噪声，从而导致可用性较低。除此之外，现有的差分隐私方法通常只对轨迹数据进行匿名，而没有考虑敏感标签(敏感属性)的影响，同样导致数据的可用性较低。

发明内容

为了有效的提高轨迹数据发布机制的隐私性与可用性，本发明提出了一种基于生成对抗网络的敏感标签轨迹数据差分隐私发布方法，在保护轨迹数据隐私性的同时保证了数据的可用性。首先，通过图模型将敏感属性和轨迹点联系起来；然后，通过计算轨迹点的频率以及不同轨迹点间的迁移关系来判断轨迹点的重要性；最后，通过GAN为每个轨迹点和敏感属性训练合适的隐私预算，在保证隐私性的前提下尽可能提高数据可用性。

本发明的技术方案：

一种基于生成对抗网络的敏感标签轨迹数据差分隐私发布方法，步骤如下：

(1)轨迹数据T是按时间排序的一系列时空点，其形式如下：

T＝(l₁，t₁)→(l₂，t₂)→…→(l_n，t_n)

其中，n为轨迹长度，t_i表示时间，l_i表示位置，由经纬度确定，(l_i,t_i)表示用户在t_i时刻出于l_i位置；其中l_i是一个二维空间信息，表示为(x_i,y_i)，其中x_i表示经度，y_i表示纬度；

标签轨迹数据R是由轨迹数据以及一个敏感属性标签的SA组成：

R＝<(l₁，t₁)→(l₂，t₂)→…→(l_n，t_n)，SA>

首先在原始轨迹数据集D中确定出可能泄露用户敏感属性的敏感停止点，并且删除用户轨迹中的异常点，获得处理后的轨迹数据集D′；

轨迹点的分类与保护，具体过程如下：

(1.1)当接收到用户的轨迹数据后，对序列上的轨迹点进行分类，主要分成停止点和异常点两类；

停止点主要考虑长停留点和徘徊点两种：

长停留点：指用户长时间停留在某一位置的情况，定义时间阈值θ_t，若用户在某一位置停留的时间长于θ_t，那么在该时间间隔内相应轨迹序列中的所有移动点均视为长停留点；对于原始轨迹数据集D中任一条轨迹数据T，如果l_i＝l_j＝l_k，且|t_k-t_i|＞θ_t(i＜j＜k)，则轨迹点(l_i,t_i),(l_k,t_k),(l_j,t_j)被视为长停留点；

徘徊点：指用户在某一区域长时间徘徊的情况，定义距离阈值θ_d；如果用户在某个区域中徘徊，并且区域中任意两点间的欧式距离小于距离阈值θ_d，并且停留时间长于时间阈值θ_t，那么在该区域中的所有时空点都被视为徘徊点；对于原始轨迹数据集D中任一条轨迹数据T，若

且|t_k-t_i|＞θ_t(i＜j＜k)，则轨迹点(l_i,t_i),(l_j,t_j),(l_k,t_k)被视为徘徊点；

异常点被称为噪声点，指的是偏离正常用户轨迹的特殊轨迹点，设置距离阈值θ_d，如果某个时空点与前面时空点间的欧式距离大于距离阈值θ_d，则将该点视为异常点；对于轨迹数据集D中任一条轨迹数据T，若

且j-i＝1，那么轨迹点(l_j,t_j)被视为异常点；

(1.2)将轨迹序列中的轨迹点分类后，对不同类型的轨迹点进行隐私保护；针对长停留点的隐私保护，利用所有长停留点的位置以及时间中心形成一个新的时空点来代替所有的长停留点；针对徘徊点的隐私保护，利用徘徊区域的轨迹中心点以及徘徊点的时间中心，形成新的时空点来代替所有的徘徊点；针对异常点，将其从轨迹数据中删除；

(2)采用图模型映射算法，将停止点和敏感属性映射为顶点，将时空点间的迁移映射为边，建立有向加权图G，并对有向加权图中顶点添加拉普拉斯噪声；

图模型映射算法的具体过程如下：

(2.1)生成有向加权图，图顶点V包含头顶点和轨迹顶点两种；首先将步骤(1)处理后的轨迹数据集D′中的每种不同的SA值映射到有向加权图G的头顶点中，头顶点也作为图中每条边的起始点，头顶点的权重值为具有该SA值的轨迹的个数；然后，将寻找到的停止点映射到轨迹顶点中，轨迹顶点的权重值为该时空点在所有轨迹中出现的次数；有向加权图G中两个顶点v_i和v_j间的边表示原始轨迹数据集D中存在顶点v_i到v_j间的迁移，边的权重表示这种迁移出现的次数；头顶点与有向加权图G中第二个节点之间的边的权值为原始轨迹数据集D中以第一个轨迹点为开始点且敏感属性为头结点的轨迹数目；

(2.2)有向加权图G生成之后，对有向加权图G中每个节点v通过相邻顶点投票的方式确定隐私预算ε，具体方法如下：

其中，N_vi表示从步骤(2.1)中获取的顶点v_i的权重，ε_vi是顶点v_i的隐私预算，w_vi表示v_i和v之间的边权重；顶点v_i通过自己的顶点权重N_vi和v_i转换到邻居v的用户数量w_vi进行权重设置来给邻居v投票，投票给邻居v的隐私预算为自身预算的

因此从邻居v到顶点v_i的投票结果是

然后，通过拉普拉斯机制为每个顶点添加噪声；采用的查询函数f＝num(v_i,D)返回值为每个顶点的权重值，针对该返回值的隐私保护，考虑两个只相差一条数据的相邻数据集D₁和D₂的敏感度为：

当两个数据集只相差一条数据时，在一个时间戳上能影响的顶点数为1；所以，拉普拉斯噪声Lap(1/ε_vi)被添加到顶点v_i的权重N_vi，加噪后的顶点权重为

(3)在利用图模型映射算法对一条轨迹数据上的各节点设计好隐私预算分配后，利用GAN来训练隐私预算；使用WGAN-GP模型将获得的有向加权图作为真实样本，通过计算生成样本和真实样本间的Wasserstein距离来判断生成样本的可用性高低，通过训练过程为有向加权图G中的每个节点添加合适的隐私预算，同时采用针对梯度阈值的自适应阈值裁剪的方法，达到加快模型收敛，提高生成数据可用性的目的；WGAN-GP的具体过程如下：

(3.1)初始化生成器和判别器，生成器的初始输入为噪声，输出为隐私预算，判别器的真实样本为上一步骤中停止点映射后的有向加权图G；在判别器的每次更新中，先对步骤(1)处理后的轨迹数据集D’集中抽样，计算梯度并且进行梯度裁剪，选用一种动态取值方法计算梯度裁剪的阈值：每次迭代过程中取加噪后的梯度平均值作为裁剪阈值，即

其中L为样本总数，||g(x_i)||₂为样本x_i的梯度范数；

(3.2)结合标签轨迹的特点以及图模型映射算法生成器生成头结点的隐私预算，通过步骤(2.2)中的噪音添加方法，生成拉普拉斯噪声添加到有向加权图G中生成噪声图G’；

结合图模型映射算法，对于头结点的隐私预算分配问题，采用一种递增的动态隐私预算分配策略：随着模型的逐渐收敛，逐渐增加分配给每次迭代的隐私预算，从而增加数据的可用性，让算法模型更快的收敛；动态隐私预算分配以一个训练时期为单位周期性地更新，并保证在一个训练时期内所有迭代中总的隐私预算仍然保持不变；采用指数型预算分配方法：

ε_t＝ε₀e^kt

其中，ε₀为初始隐私预算，t为当前时期数，k是增长率、k>0；

(3.3)判别器接收生成器传输的生成样本后，根据损失函数判断生成样本的真假，更新判别器参数，根据噪声分布进行抽样并更新生成器参数；算法以对抗学习的形式循环迭代，直到累计隐私损失超过总隐私预算或迭代数时算法终止；

(4)对噪声图G′进行了两次遍历来生成轨迹数据，从而收集轨迹数据生成发布数据集D^*，每次遍历过程中以头顶点为开始，遍历其他轨迹顶点，直到经过没有出边的顶点为止；生成轨迹时，每经过一个顶点，就将其对应的权值减1，而边的权值不变；算法详细介绍如下：

(4.1)根据步骤(1)中处理后的数据集D′中的每条轨迹T，寻找噪声图G′中是否存在一条相同的轨迹，如果存在并且轨迹中的每个顶点权重值不为0，那么将轨迹数据T添加到发布数据集D^*中；但如果由于添加负噪声导致顶点权重减小，在轨迹生成过程中顶点权重如果为0，导致不存在该轨迹，即轨迹中存在轨迹点的缺失，那么将从轨迹数据T中删除该时空点，轨迹数据T中剩下时空点作为一条新的轨迹信息添加到发布数据集D^*中；

(4.2)遍历完轨迹数据集D′后，噪声图G′中仍然可能有顶点的权重不为0，利用这些顶点之间的边关系来生成新的轨迹；设计一种启发式算法，即每次选择具有较大权值的顶点或者边来生成新的轨迹，首先从噪声图G′中剩下的节点选取权值最大的头顶点v_i作为生成轨迹的SA值；然后，每次选择顶点v_i的相连接边中权值最大且相邻顶点权重不为0的点作为轨迹的下一个点，并且将该顶点的权值减1，重复此操作直到某个所选顶点没有出边为止，便生成了一条轨迹；重复上述操作直至所有的顶点权重均为0。

本发明的有益效果：本发明设计了一种基于生成对抗网络的带敏感标签的差分隐私轨迹数据发布算法GDPGAN，通过图模型的设计同时对敏感标签和轨迹数据加噪，并且引入了GAN技术对隐私预算进行训练，在保证数据隐私性的前提下，提高了数据的可用性。

附图说明

图1为本发明所述的敏感标签轨迹数据发布整体结构图。

图2为本发明所述的轨迹点分类的流程图。

图3为本发明所述的图映射算法的流程图。

图4为本发明所述的训练隐私预算的流程图。

图5为本发明所述的匿名轨迹数据发布的流程图。

图6为噪声图G′加噪示例图。

具体实施方式

为了将本发明的目的，技术方案和优点表达的更清晰明了，接下来将通过实施例和附图，对本发明做进一步的详尽的说明。

一种基于生成对抗网络的敏感标签轨迹数据差分隐私发布方法，本方法包括确定敏感停止点和异常点、基于图模型的轨迹数据映射方法、基于GAN的隐私预算分配、基于图模型的数据发布。

参照图2，生成相邻路由器之间边的权重以及对路由器分组的具体运行过程如下：

步骤1.中心数据库收到查询请求，确定轨迹序列和时间阈值θ_t和距离阈值θ_d。

步骤2.中心数据库根据时间阈值和距离阈值，将轨迹点分为长停留点和徘徊点。

步骤3.如果轨迹点为长停留点，则统计时间阈值θ_t内的所有长停留点，并取长停留点集的中心作为新的轨迹点；如果轨迹点为徘徊点，则统计距离阈值内的所有徘徊点，并取徘徊点集的中心作为新的轨迹点。对于轨迹T_i＝(l₁,t₁)→(l₂,t₂)→…→(l_m,t_m)，其中T_i表示数据集中第i条轨迹，如果l_i＝l_j＝l_k,并且|t_k-t_i|＞θ_t(i＜j＜k)，在这种情况下，(l_i,t_i),(l_j,t_j),(l_k,t_k)被认定为长停留点；如果

并且|t_k-t_i|＞θ_t(i＜j＜k)，在这种情况下，(l_i,t_i),(l_j,t_j),(l_k,t_k)被认定为徘徊点。

步骤4.

步骤5.将轨迹数据集中D'中的每种不同的SA值映射到图G，将包含相同SA值的轨迹个数设置为图G的头顶点权重。

步骤6.将长停留点和徘徊点映射到图的轨迹顶点中，并将该轨迹点的频数设置为轨迹顶点的权重。

步骤7.遍历轨迹数据集，生成节点v_i和v_j的边，并将原轨迹数据集中v_i和v_j节点的连接次数作为边权重。

步骤8.采用相邻顶点投票方式对轨迹顶点计算隐私预算，计算公式如下：

其中N_vi表示顶点v_i的权重，w_vi表示v_i转换到v的用户数量。以下图举例，将GU的ε设置为0.3，将FLU的ε设置为0.5。只有两条边指向轨迹顶点a1，所以a1的隐私预算为

步骤9.依据隐私预算的计算结果，为每个轨迹顶点添加拉普拉斯噪声：

步骤10.将映射后的图输入到GAN中的生成器，将原始拉普拉斯噪声和隐私预算输入到判别器中，设置GAN模型超参数(迭代次数、梯度惩罚系数、增长率等)。

步骤11.初始化判别器参数w和生成器参数θ，使用GAN训练生成噪声。具体训练过程如下：

(1)根据模型预设的增长率和初始隐私预算，优化生成器中的隐私预算；

(2)从轨迹数据集中采样，并输入到判别器中；

(3)判别器根据采样结果计算梯度；

(4)利用图模型映射算法，对梯度添加噪声，并对梯度裁剪；

(5)更新判别器参数w；

(6)重复(2)～(5)过程，直至判别器迭代次数超过T_d；

(7)从噪声中抽样并更新生成器参数θ；

(8)重复(1)、(6)、(7)，直至生成器中的隐私预算大于ε₀；

(9)输出噪声图。

步骤12.将步骤10获取的噪声图G'与轨迹数据集D'进行对比，对轨迹数据集D'中的每一条轨迹查看G'中是否存在相同轨迹，若存在且每个顶点权重不为0，增加该轨迹添加至轨迹数据集D^*中；若不存在且顶点权重为0，则从原轨迹中删除该时空点，将剩下的轨迹序列作为新的轨迹信息添加至数据集D^*中。

步骤13.利用噪声图G'中权重仍不为0的顶点生成新的轨迹，具体过程如下：

(1)选择权重最大的头顶点v作为生成轨迹的SA值；

(2)选取顶点v的相连邻居顶点中权重最大且不为0的点作为下一个点，并将改点的权值减1；

(3)重复(2)的操作，直至所选顶点没有出边。

步骤14.将步骤12生成的轨迹信息添加至数据集D^*中并发布。

Claims

1.一种基于生成对抗网络的敏感标签轨迹数据差分隐私发布方法，其特征在于，步骤如下：

(1)轨迹数据T是按时间排序的一系列时空点，其形式如下：

T＝(l₁，t₁)→(l2，t₂)→…→(l_n，t_n)

其中，n为轨迹长度，t_i表示时间，l_i表示位置，由经纬度确定，(l_i，t_i)表示用户在t_i时刻出于l_i位置；其中l_i是一个二维空间信息，表示为(x_i，y_i)，其中x_i表示经度，y_i表示纬度；

R＝＜(l₁，t₁)→(l₂，t₂)→…→(l_n，t_n)，SA＞

轨迹点的分类与保护，具体过程如下：

停止点主要考虑长停留点和徘徊点两种：

长停留点：指用户长时间停留在某一位置的情况，定义时间阈值θ_t，若用户在某一位置停留的时间长于θ_t，那么在该时间间隔内相应轨迹序列中的所有移动点均视为长停留点；对于原始轨迹数据集D中任一条轨迹数据T，如果l_i＝l_j＝l_k，且|t_k-t_i|＞θ_t(i＜j＜k)，则轨迹点(l_i，t_i)，(l_k，t_k)，(l_j，t_j)被视为长停留点；

且|t_k-t_i|＞θ_t(i＜j＜k)，则轨迹点(l_i，t_i)，(l_j，t_j)，(l_k，t_k)被视为徘徊点；

且j-i＝1，那么轨迹点(l_j，t_j)被视为异常点；

图模型映射算法的具体过程如下：

因此从邻居v到顶点v_i的投票结果是

然后，通过拉普拉斯机制为每个顶点添加噪声；采用的查询函数f＝num(v_i，D)返回值为每个顶点的权重值，针对该返回值的隐私保护，考虑两个只相差一条数据的相邻数据集D₁和D₂的敏感度为：

其中L为样本总数，||g(x_i)||₂为样本x_i的梯度范数；

ε_t＝ε₀e^kt

其中，ε₀为初始隐私预算，t为当前时期数，k是增长率、k＞0；