CN112001415A

CN112001415A - 一种基于对抗网络的位置差分隐私保护方法

Info

Publication number: CN112001415A
Application number: CN202010678689.9A
Authority: CN
Inventors: 王之涵; 刘海波; 邱奕玮
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2020-07-15
Filing date: 2020-07-15
Publication date: 2020-11-27

Abstract

本发明公开了一种基于对抗网络的位置差分隐私保护方法，属于位置隐私保护技术领域，包括以下步骤：S1：基于差分隐私机制的位置数据隐私保护；S2：建立密度感知网络；S3：定义点的重要性程度参数；S4：处理重要性程度高的点；S5：拟合轨迹长度的分布；S6：以马尔科夫链进行新轨迹的生成；S7：对抗网络；本发明通过为图中的边分配概率值来实现隐私保护,对原图数据改变较小,一定程度上保持了较高的原数据效用；另一方面考虑私人位置轨迹信息的节点属性，相较于只保护节点而忽视边,保护更加全面有效，使得不法分子无法以节点推测边的轨迹，也无法通过边的轨迹推测节点的位置，为私人位置隐私的动态位置问题提供良好的保障。

Description

一种基于对抗网络的位置差分隐私保护方法

技术领域

本发明属于位置隐私保护技术领域，具体涉及一种基于对抗网络的位置差分隐私保护方法。

背景技术

随着移动设备和基于位置的服务越来越多，无处不在，移动用户位置跟踪的隐私保护成为一个主要问题。

传统的位置隐私保护技术主要集中在基于点的位置隐私，这通常是通过使用隐身区域对用户迹线中的每个位置点进行干扰或混淆来实现的，目的是确保位置k匿名，然而，这些基于点的隐私机制不足以保护用户轨迹的隐私，即空间相关的位置的时间序列。

多项研究表明，轨迹中每个基于点的位置的独立扰动都有致命的缺点，包括逆向工程和推理供给的敏感性，在这些攻击中，对手观察到一系列受干扰的位置，以推断出移动方式，然后将特定的移动方式与特定的用户联系起来，这种扰动还会遭受空间效用的积聚损失，并且容易受到已知位置的跟踪和攻击。

发明内容

为解决上述背景技术中提出的问题。本发明提供了一种基于对抗网络的位置差分隐私保护方法，具有在抗顶点身份攻击的同时保证了图结构数据最小化失真的特点。

为实现上述目的，本发明提供如下技术方案：一种基于对抗网络的位置差分隐私保护方法，包括以下步骤：

S1：基于差分隐私机制的位置数据隐私保护；

S2：建立密度感知网络；

S3：定义点的重要性程度参数；

S4：处理重要性程度高的点；

S5：拟合轨迹长度的分布；

S6：以马尔科夫链进行新轨迹的生成；

S7：对抗网络。

本发明进一步的，所述步骤S1中，基于差分隐私机制的位置数据隐私保护的具体步骤为：

S11：差分隐私

存在两个相邻数据集D、D′和算法K，K(D)表示算法K在数据集D上的输出集合，O是算法K所有输出值的集合，若算法K在数据集D和D′上任意输出结果为满足下面不等式(1)：

Pr[K(D)∈O]≤e^ε×Pr[K(D′)∈O]

则算法K满足ε差分隐私，ε称为差分隐私预算，ε的取值决定了保护效果，ε取值的大小与与保护效果成正比，与数据失真程度成反比，差分隐私以其严格的数学定义为隐私的评价提供了理论依据；

差分隐私实现机制包括：指数机制、拉普拉斯机制和高斯机制，其中，指数机制一般应用于非指数类数据，拉普拉斯机制和高斯机制适用于数值型数据的隐私保护；

S12：不确定图

给定图G＝(V,E),G顶点上的不确定图是G′＝(V,P)，其中P:V_p→[0,1]是将概率分配给无序顶点对的函数，不确定图G′具有原始图G相同的顶点V，对于确定性图，我们可以假定所有边的概率等于1；

S13：邻近图

给定两个图G₁＝(V₁,E₁)和G₂＝(V₂,E₂)，若在G₁、G₂中有

则称G₁、G₂为邻近图，由于V₁＝V₂,只要

即E₁和E₂的汉明距离为1，我们就称G₁、G₂为邻近图，

S14：敏感度

给定一个函数f:G→G″,其中，G、G″具有相同的顶点集合，函数f的全局敏感度为：

其中，G₁、G₂是邻近图，G″为经过随机算法后的输出图，f是查询函数，表示对于G₁、G₂中的边e_i，查询边e_i是否存在于G₁和G₂中。

本发明进一步的，所述步骤S2中，建立密度感知网络的具体步骤为：

S21：密度感知网络的建立

使用具有密度自适应单元格粒度的网络，对于低密度区域，将放置较大的cell，对于高密度区域，将区域划分为更细粒度的较小单元，首先，放置一个N×N均匀的单元格层，这样顶层一共有N²个cell，用C₁,C₂,...,C_N来表示，将轨迹用T来表示,路径总和T所经过的cell的数目为|T|，并统计每一个轨迹所占用的单元格下标，以及计算在每一个单元格C_i中，轨迹T所占用的长度，并将其标准化处理，即该单元格中标准化之后的访问次数：

其中，g是标准化之后的值，将g写为集合的形式：

W＝{g(D_real,C₁),g(D_real,C₁),...,g(D_real,C_N2)}

ΔW＝1，只需在每个g(D_real,C_i)中添加Lap(1/ε₁)即可获得加噪之后的

并且细分C_i，使得每个C_i由g(D_real,C_i)进一步分为M_i×M_i的cell，M_i，即每个单元格划分为的小单元格的数目，其值以分段函数的形式来定义：

S22：双层网格行程的优化

网格A离散化为Ω(D_real)，以起始单元格C_start和目标单元格C_end来表示一次行动的路线，如下所示：C_start→C_end，令h(C_start→C_end)为计算数据库D_real中旅行次数C_start→C_end的函数，并且h表示差分隐私，X为行程分布A×A的整个范围内的随机变量，则行程分布R的计算方式如下：

其中，R是一个概率质量函数，其项的总和为1，在两层网格的情况下，一个GPS位置由顶层和底层单元同时索引，可以使用约束推理，以提高准确性和一致性，采用Folloejng线性普通最小二乘(OLS)方法，用C_i表示网格最顶层的单元格，用C_i,j表示网格最底层的单元格，其中

在获得顶层行程数

时，使用预算θε₃，在获底层的行程数

时，使用(1-θ)ε₃，如果没有隐私干扰，使用无噪声计数h代替

即h(C_i→C_j)，h(C_i→C_j)＝∑_k∑_lh(C_i,k→C_j,l)，在随机干扰每个h后，此值可能不成立，为了重新建立一致性，并最大程度地减少噪声影响，使满足给定

的噪声值，可以获得优化的行程路径，记为

表示为：

在优化底层计数时，上面计算出的优化顶层计数中的差异平均分布在底层单元中：

最后，在R的定义中使用优化的行程计数

代替

本发明进一步的，所述步骤S3中，定义点的重要性程度参数的具体步骤为：

S31：定义节点的聚类系数和访问能力参数

S311：求节点的聚类系数

意为相邻节点的度的总和除以相邻节点数，M_n为相邻节点，N为相邻节点数；

S312：求节点的综合访问能力值

Step1：定义节点访问能力值

以中心节点为研究对象，将其抽象为星型拓扑图，以中心节点的计算资源乘以其相邻节点间距离值的总和，来计算中心节点的综合访问频率大小值，

其中，C(n)为该中心节点的访问频率，B(n,m)为n,m两点间的路径长度，因一条链路为两端两个节点共用，因此计算路径长度值时需除以2；

Step2：标准化

其中，以中心节点的访问能力值分别依次除以相邻节点访问能力值，将结果存储在矩阵Res中，即Res＝(Res(1),Res(2),...,Res(N))^T；

Step3：定义节点综合访问能力值

b_n以马尔科夫随机游走模型计算，同时考虑该点与其邻居节点，以该点为初始状态，以适当的随机游动累积报酬的形式，将邻域内的资源聚合起来计算，采用递归的思想求中心节点的综合访问能力值，如下：

其中，γ为相邻节点的相对权重，P为转移概率矩阵，P为一个|N|×|N|矩阵，定义如下：

P是一个随机矩阵，所有的行的总和为1，以矩阵形式重写

为

V_γ-(1-γ)Re s+γPV_γ

其中Re s＝(Re s(1),Re s(2),...Re s(|N|))^T，并且V_γ＝(V_γ(1),V_γ(2),...,V_γ(|N|))^T，递归等式

可以看做是折现因子为γ的折现奖励的Bellman方程，节点集N上转移概率矩阵为P的马尔科夫链，Re w＝(Re w(1),Re w(2),...Re w(|N|))，并且Re w(n)＝(1-γ)Re s(n),n∈N，节点n的排名矩阵V_γ(n)，是转移概率为P的马尔科夫链的预期折扣累积奖励，即

其中n₀,n₁,n₂,...表示采样路径，

V_γ为公式V_γ-(1-γ)Re s+γPV_γ的唯一解，由于P是随机的，所以(1-γP),0≤γ≤1是可逆的，因此可以得出

V_γ＝(1-γP)^-1(1-γ)Re s

根据以上定义，节点的排名V_γ(n)越高，该节点及其附近的访问能力值越高，折扣因子γ是对邻域大小的度量，在确定节点度量时要加以考虑，γ＝0时仅考虑本节点资源，而随着γ的增加，在矩阵中靠近节点的拓扑图部分占比越来越大；

Step4：归一化

为消除节点聚集系数与节点访问能力值的量纲，分别对其进行归一化处理，如下：

对聚集系数归一化处理：

对节点资源承载能力归一化处理：

S313：求节点能力参数

考虑节点在拓扑结构图中的聚集程度，以及访问能力的大小，将节点能力值量化如下：

θ_n＝a_n′+αb_n′

其中，a_n′为归一化后的节点聚类系数，b_n′为归一化后的节点访问能力，α为访问能力能力与节点聚类程度对节点能力参数的影响比重；

S32：正态双卵模型为节点分类

采用项目反应理论中的正态双卵模型判定节重要性程度为强的概率，为节点重要性程度的强弱进行分类，以便为不同类型的节点选取不同的备份策略：

其中，Q(θ_n)为对应节点被判定重要性程度为强的概率，P_i(θ)是能力为强节点对应的判断概率，q_i(θ)是能力为弱节点的判断概率，

表示为正态双卵曲线的陡峭程度，以节点聚类系数的均值计算，

为偏置因子，以节点的访问能力的均值表示，θ_n为节点n的能力参数，为便于该模型中计算，使θ_n分布在[-2,2]，因此对其进行数值范围调整如下：

将节点能力参数值θ_n调整至[-2,2]的区间上，设置阈值为r，即节点能力参数的平均值

作为初步能力强弱的区分，θ_{n_max}为n个节点中节点能力最大值，θ_{n_min}为最小值；

以

节点能力值分布，曲线对称中心记为(x₀,y₀)，计算节点强弱的比例如下：

中，e值为在所有点中，能力较强的节点所占的比例，其经验值为15％—20％。

本发明进一步的，所述步骤S4中，处理重要性程度高的点的具体步骤为：

S41：多边形质心模型

比例集合B，根据距离选择相关的和最大尺寸的点来构建多边形，例如，对一个多边形，该算法从B的坐标为P(x_i,y_i)的i中选取N个点作为顶点，其中，i＝1,2,3,...,N，其中N个点之一位于的原始轨迹，其他点在该点附近；

根据形成的多边形的定点计算多边形质心，公式如下：

其中，P_i(x_k,y_k)是第k个顶点的坐标，在第i_th个多边形中，P_i是第i_th个多边形的顶点数，而j_i(x,y)是第i_th个多边形质心的坐标，

多边形质心形成为集合J,其中j_i(x,y)∈J；

S42：根据拉普拉斯机制添加噪音

输入隐私保护等级ε和多边形质心集J，然后生成噪声

满足概率Pr(j(x,y),λ)使得：

其中，j(x,y)表示多边形质心与对应坐标，并且

向J中添加拉普拉斯噪声

其中，j_i∈J，j_i(x,y)代表第i个多边形的质心，

是每一轮的噪声，服从概率Pr(j(x,y),λ)。最后，该算法产能生了集合G；

适用修改后的多边形中心体G替换相应的保护节点f∈A，并且然后发布新的轨迹数据I′，

S43：建立位置搜索树

首先建立位置搜索树(LQ-Trie)上对数据假造，最后后置处理加噪的数据返回位置搜索树，发布噪声后的位置搜索树(LQ-Trie)；

S44：基于指数机制遍历与提取位置搜索树

首先按层遍历

获得所有满足访问频率不小于min_Count的频繁模式记录集合A，然后通过指数机制在A中选取k个满足的频繁模式a_i，该集合为B：

其中，Pr(a_i)表示被选取的概率，a_i·weight表示a_i模式的权重，基于指数机制的选择算法步骤描述如下：

Step1：输入频繁模式记录集合A，给A的N个模式记录a_i打分，设置为：

Mark(A,a_i)＝Q(a_i)

其中，Q(a_i)表示a_i模式的访问频率；

Step2：计算每个模式记录的权重：

并按降序排列；

Step3：从集合A中以概率

选取k个频繁模式记录a_i，该集合为B；

上述指数机制完成选择，而指数机制的关键是打分函数的设置，设置打分函数为Mark(A,a_i)＝Q(a_i)(设Q(a_i)为访问频率)，每个模式记录的权重为：

其中，ε₁表示选取k个模式所分配的隐私预算，Mark(A,a_i)表示a_i的打分值，ΔMark计算如下式所示：

ΔMark表示N个数据记录模式中的访问频率之差的最大值，

根据上式计算出加噪的集合E，最后根据集合E发布加噪后的位置搜索树

本发明进一步的，所述步骤S43中，LQ-Trie＝DPK的算法步骤为：

Step1：输入数据集D和差分隐私保护参数ε₁，ε₂，k，min_count，ε＝ε₁+ε₂；

Step2：根据数据集D和项目集I，构造多级查询树

Step3：从

中获取访问频率项集合A，满足在集合A中每个数据的访问次数不低于min_count；

Step4：使用指数机制从集合A中选择访问频率项B，其中每个选择的数据记录都满足以下条件：

其中，B的大小为k，a_i∈A为访问频率项记录，ε_i为相应的的隐私保护等级，Rank(A,a_i)为a_i的评分值，ΔRank为评分函数灵敏度；

Step5：使用拉普拉斯机制向集合B中添加噪声

得到集合C，并且根据C和A构造并发布新的多集查询树。

本发明进一步的，所述步骤S5中，拟合轨迹长度的分布的具体步骤为：

将观察到的行程长度视为直方图，考虑多个不同形状的已知分布，如均匀分布、指数分布和泊松分布，作为捕获直方图的候选分布，候选分布有一个共同的特点，它们的参数直接关系到汇总统计量，而汇总统计量可以从中得到，例如，泊松分布有一个值为平均长度的参数，而指数分布的参数与中位数长度med有这样的关系；可以使用拉普拉斯和指数机制私下获取平均值和中位数等统计信息，将其分解成一个噪声总和除以一个噪声总数的形式，来获得一个私有的均值，其中拉普拉斯机制用于注入噪声；私有中位数可以使用Cormode等人对指数的修改来获取；这个机制返回的是有噪声的中位数x，而不是实际中的中位数，这里q意为，当x接近实际的中位数，那么它的rank将与实际中位数的rank相近，因此，每个候选人的分数都会受到rank偏离的程度的负影响；

在构建了上述多个候选分布之后，选择一个作为最合适的分布，将其存储在AdaTrace的内存中，并删除其余的分布，使用拟合优度检验来确定哪个分布是最佳拟合，使用检验统计量的值，由于其差分隐私应用；

轨迹综合算法

AdaTrace的综合算法结合了四个功能：密度感知网格A，移动性模型Π(Dreal)，行程分布R和每次旅行的分布的长度集合L，它的输出基于合成轨迹；

算法：Trajectorysynthesisalgorithm

Input:网格A，形成分布R，可移动模型Π，长度分布L

Output:候选合成轨迹T_syn

从R的pmf里随机选取一个样本C_start→C_end

对于路线C_start→C_end，从L中得到拟合的概率分布PD

从PD中挑选一个随机样本

将T_syn使用T_syn[1]＝C_start和T_syn[l]＝C_end初始化

fori＝2tol-1do

for C_cand∈A do

从Π中重新得到：

w₁＝Pr(T[i]＝C_cand|T[i]...T[i-1])和

w₂＝Pr(T[l]＝C_end|T[i]...T[i-1]C_cand)

将C_cand的权重设置为w₁·w₂

end

来自A的样本C_chosen，其概率与上面计算的去权重成正比

设置T_syn[i]＝C_chosen

end

返回T^syn

首先，通过根据形成分布进行采样来确定合成轨迹的起点和终点，其次，从中的适当路径长度分布L中取样的长度，第三，将初始化，并将第一个位置作为形成的起始单元格，最后一个位置作为形成的目的单元格，第四，给定的两个端点，在移动性模型上采用随机游走找到中间位置，当考虑网络A的单元格作为候选，确定的第i个位置时，将为每个候选对象分配一个权重，该权重由表示为和的两个子权重组成，进行回溯，并找到下一个位置是的概率，就像马尔科夫假设的应用一样，同时，进行前向查找，并找到当前位置是时，而最终位置为的概率，这是一个-步的传输概率，是使用1步传输概率的组合计算出来的为了提高效率，在学习之后预先计算了多步转换概率，因此对于不同的不重复相同的计算；

上面的伪代码为定义确定起点和终点之间的单次行程轨迹，其中，每个用户的中的GPS记录对应于短期旅行，例如Uber或出租车，但是，如果是长时间(例如几天)收集的，则用户的记录可能包含多次行程记录，在这种情况下，每个用户可以多次运行合成算法，并且下一个轨迹的起始位置等于上一个轨迹的最后已知位置，接着将这些轨迹连接在一起，以形成具有所需行程次数的用户最终GPS记录。

本发明进一步的，述步骤S6中，以马尔科夫链进行新轨迹的生成的具体步骤为：

使用Markov链进行移动性建模，r阶的马尔科夫链表示为轨迹中的下一个位置取决于先前r阶的位置，而不是先前所有的位置，基于网络的离散化建立离散状态的马尔科夫链，将自适应网格中的每个单元格看做马尔科夫链中的一个状态，假设每个轨迹表示为一个按时间顺序排列的单元格序列，并由T[j]表示轨迹T中的第j条，写出T到具有下一个单元格的转移概率，观察其先前的n个位置：

Pr(T[n+1]＝C_next|T[1]...T[n])

＝Pr(T[n+1]＝C_next|T[n-r+1]T[n-r+2]...T[n])

trajectory-specific流动模型，每个概率Π(T)，T[n-r+1]T[n-r+2]...T[n]是trajectory-specific模型捕获单个用户的移动性模型，以Π(D_real)表示；

归结为含T[n-r+1]T[n-r+2]...T[n]C_next的序列与T[n-r+1]T[n-r+2]...T[n]的序列之比，特定轨迹的移动性模型Π(T)是每个概率Pr(T[n+1]|T[1]...T[n])的集合，捕获了D_real中单个用户的移动性，接着通过对彼此的各个移动性模型求平均，来找到整个D_real的聚合移动性模型；

类似于网格构建过程中的噪声添加模型Π(D_real)也受到拉普拉斯噪声的扰动，以满足差分隐私，将噪声添加到马尔可夫概率中，使得马尔可夫概率以序列计数的比来计算，并认为敏感度等于1，所需的噪声数量有限，因此，Π(D_real)可以保持对噪声的鲁棒性。

本发明进一步的，所述步骤S7中，对抗网络的具体步骤为：

S71：对抗网络建模

继Goodfellow等，进一步定义了一个鉴别器网络

将它与

交替进行优化，以解决对抗性最小——最大问题：

总体思想是，它允许训练生成模型G，其目的是欺骗区分鉴别器D，该鉴别器D被训练为区分高仿真轨迹数据和真实轨迹数据，通过这种方法，生成器可以学习创建和真实轨迹数据相似的结果，因此很难用D进行分类；

在深度生成网络G，其核心是B残差块，使用两个具有3×3小内核和64个特征轨迹数据的卷积层，然后使用归一化层和ParametricReLU作为激活函数，通过两个训练好了的子像素卷积层来提高输入图像的仿真率，为了从生成的SR轨迹样本中区分出真实的HR轨迹数据，训练了一个判别网络，使用LeakyReLU激活(α＝0.2)，并避免整个网络的最大池化问题，它包含8个卷积层，其卷积核的数量增加了3×3，与VGG网络一样，从64个核增加到512个核，增加了两倍，每当特征数量增加一倍时，将使用卷积来降低图像仿真率，通过生成的512个特征图，与两个密集层和一个最终的sigmoid激活函数，来获得样本分类的概率；

S72：感知损失函数

设计一个损失函数，评估在感知上的相关特征，将感知损失表示为内容损失

和对抗性损失的加权总和，如下：

其中，第一项为内容损失，第二项为对抗损失，一起组成感知损失基于VGG的内容损失；

S73：内容丢失

按轨迹数据计算的的MSE损失计算如下：

根据Simonyan和Zisserman中描述的与训练的19层VGG网络的ReLU激活层来定义VGG损失，用φ_i,j，j表示通过第j个卷积(激活后)，在第i个最大池化层之前的特征图，然后将VGG损失定义为，重构轨迹数据

的特征表示与参考轨迹数据I^HR之间的欧氏距离：

其中，W_i,j和H_i,j描述了VGG网络中各特征轨迹数据的维数；

S74：对抗损失

除了到目前为止描述的内容损失以外，还将GAN的生成成分添加到感知损失中，这使得网络更倾向于那些基于多种真是原始轨迹数据的解决方案，使得欺骗鉴别器网络，生成损失根据鉴别器

对所有训练样本的概率定义

为：

其中，

为重新生成轨迹数据，

为高仿真轨迹数据的概率，为了得到更好的梯度，最小化

而不是

与现有技术相比，本发明的有益效果是：

本发明通过为图中的边分配概率值来实现隐私保护,对原图数据改变较小,一定程度上保持了较高的原数据效用；另一方面考虑私人位置轨迹信息的节点属性，相较于只保护节点而忽视边,保护更加全面有效，使得不法分子无法以节点推测边的轨迹，也无法通过边的轨迹推测节点的位置，为私人的位置隐私的动态位置问题提供良好的保障。

附图说明

图1为本发明的流程图；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明提供以下技术方案：一种基于对抗网络的位置差分隐私保护方法，包括以下步骤：

S1：基于差分隐私机制的位置数据隐私保护；

S2：建立密度感知网络；

S3：定义点的重要性程度参数；

S4：处理重要性程度高的点；

S5：拟合轨迹长度的分布；

S6：以马尔科夫链进行新轨迹的生成；

S7：对抗网络。

具体的，步骤S1中，基于差分隐私机制的位置数据隐私保护的具体步骤为：

S11：差分隐私

Pr[K(D)∈O]≤e^ε×Pr[K(D′)∈O]

S12：不确定图

S13：邻近图

则称G₁、G₂为邻近图，由于V₁＝V₂,只要

即E₁和E₂的汉明距离为1，我们就称G₁、G₂为邻近图，

S14：敏感度

具体的，步骤S2中，建立密度感知网络的具体步骤为：

S21：密度感知网络的建立

其中，g是标准化之后的值，将g写为集合的形式：

S22：双层网格行程的优化

在获得顶层行程数

时，使用预算θε₃，在获底层的行程数

的噪声值，可以获得优化的行程路径，记为

表示为：

最后，在R的定义中使用优化的行程计数

代替

具体的，步骤S3中，定义点的重要性程度参数的具体步骤为：

S31：定义节点的聚类系数和访问能力参数

S311：求节点的聚类系数

S312：求节点的综合访问能力值

Step1：定义节点访问能力值

Step2：标准化

Step3：定义节点综合访问能力值

P是一个随机矩阵，所有的行的总和为1，以矩阵形式重写

为

V_γ-(1-γ)Re s+γPV_γ

其中n₀,n₁,n₂,...表示采样路径，

V_γ＝(1-γP)^-1(1-γ)Re s

Step4：归一化

对聚集系数归一化处理：

对节点资源承载能力归一化处理：

S313：求节点能力参数

θ_n＝a_n′+αb_n′

S32：正态双卵模型为节点分类

以

具体的，步骤S4中，处理重要性程度高的点的具体步骤为：

S41：多边形质心模型

根据形成的多边形的定点计算多边形质心，公式如下：

多边形质心形成为集合J，其中j_i(x,y)∈J；

S42：根据拉普拉斯机制添加噪音

输入隐私保护等级ε和多边形质心集J，然后生成噪声

满足概率Pr(j(x,y),λ)使得：

其中，j(x,y)表示多边形质心与对应坐标，并且

向J中添加拉普拉斯噪声

其中，j_i∈J，j_i(x,y)代表第i个多边形的质心，

S43：建立位置搜索树

S44：基于指数机制遍历与提取位置搜索树

首先按层遍历

Mark(A,a_i)＝Q(a_i)

其中，Q(a_i)表示a_i模式的访问频率；

Step2：计算每个模式记录的权重：

并按降序排列；

Step3：从集合A中以概率

选取k个频繁模式记录a_i，该集合为B；

ΔMark表示N个数据记录模式中的访问频率之差的最大值，

具体的，步骤S43中，LQ-Trie＝DPK的算法步骤为：

Step2：根据数据集D和项目集I，构造多级查询树

Step3：从

Step5：使用拉普拉斯机制向集合B中添加噪声

得到集合C，并且根据C和A构造并发布新的多集查询树。

具体的，步骤S5中，拟合轨迹长度的分布的具体步骤为：

轨迹综合算法

算法：Trajectorysynthesisalgorithm

Input:网格A，形成分布R，可移动模型Π，长度分布L

Output:候选合成轨迹T_syn

从R的pmf里随机选取一个样本C_start→C_end

对于路线C_start→C_end，从L中得到拟合的概率分布PD

从PD中挑选一个随机样本

将T_syn使用T_syn[1]＝C_start和T_syn[l]＝C_end初始化

fori＝2tol-1do

for C_cand∈A do

从Π中重新得到：

w₁＝Pr(T[i]＝C_cand|T[i]...T[i-1])和

w₂＝Pr(T[l]＝C_end|T[i]...T[i-1]C_cand)

将C_cand的权重设置为w₁·w₂

end

来自A的样本C_chosen，其概率与上面计算的去权重成正比

设置T_syn[i]＝C_chosen

end

返回T^syn

具体的，步骤S6中，以马尔科夫链进行新轨迹的生成的具体步骤为：

Pr(T[n+1]＝C_next|T[1]...T[n])

＝Pr(T[n+1]＝C_next|T[n-r+1]T[n-r+2]...T[n])

具体的，步骤S7中，对抗网络的具体步骤为：

S71：对抗网络建模

继Goodfellow等，进一步定义了一个鉴别器网络

将它与

交替进行优化，以解决对抗性最小——最大问题：

S72：感知损失函数

和对抗性损失的加权总和，如下：

S73：内容丢失

按轨迹数据计算的的MSE损失计算如下：

的特征表示与参考轨迹数据I^HR之间的欧氏距离：

其中，W_i,j和H_i,j描述了VGG网络中各特征轨迹数据的维数；

S74：对抗损失

对所有训练样本的概率定义

为：

其中，

为重新生成轨迹数据，

为高仿真轨迹数据的概率，为了得到更好的梯度，最小化

而不是

本发明的工作原理及使用流程：S1：基于差分隐私机制的位置数据隐私保护

S11：差分隐私

Pr[K(D)∈O]≤e^ε×Pr[K(D′)∈O]

S12：不确定图

S13：邻近图

则称G₁、G₂为邻近图，由于V₁＝V₂,只要

即E₁和E₂的汉明距离为1，我们就称G₁、G₂为邻近图，

S14：敏感度

其中，G₁、G₂是邻近图，G″为经过随机算法后的输出图，f是查询函数，表示对于G₁、G₂中的边e_i，查询边e_i是否存在于G₁和G₂中；

S2：建立密度感知网络

S21：密度感知网络的建立

其中，g是标准化之后的值，将g写为集合的形式：

S22：双层网格行程的优化

在获得顶层行程数

时，使用预算θε₃，在获底层的行程数

的噪声值，可以获得优化的行程路径，记为

表示为：

最后，在R的定义中使用优化的行程计数

代替

S3：定义点的重要性程度参数

S31：定义节点的聚类系数和访问能力参数

S311：求节点的聚类系数

S312：求节点的综合访问能力值

Step1：定义节点访问能力值

Step2：标准化

Step3：定义节点综合访问能力值

P是一个随机矩阵，所有的行的总和为1，以矩阵形式重写

为

V_γ-(1-γ)Re s+γPV_γ

其中n₀,n₁,n₂,...表示采样路径，

V_γ＝(1-γP)^-1(1-γ)Re s

Step4：归一化

对聚集系数归一化处理：

对节点资源承载能力归一化处理：

S313：求节点能力参数

θ_n＝a_n′+αb_n′

S32：正态双卵模型为节点分类

以

中，e值为在所有点中，能力较强的节点所占的比例，其经验值为15％—20％；

S4：处理重要性程度高的点

S41：多边形质心模型

根据形成的多边形的定点计算多边形质心，公式如下：

多边形质心形成为集合J,其中j_i(x,y)∈J；

S42：根据拉普拉斯机制添加噪音

输入隐私保护等级ε和多边形质心集J，然后生成噪声

满足概率Pr(j(x,y),λ)使得：

其中，j(x,y)表示多边形质心与对应坐标，并且

向J中添加拉普拉斯噪声

其中，j_i∈J，j_i(x,y)代表第i个多边形的质心，

S43：建立位置搜索树

S44：基于指数机制遍历与提取位置搜索树

首先按层遍历

Mark(A,a_i)＝Q(a_i)

其中，Q(a_i)表示a_i模式的访问频率；

Step2：计算每个模式记录的权重：

并按降序排列；

Step3：从集合A中以概率

选取k个频繁模式记录a_i，该集合为B；

上述指数机制完成选择，而指数机制的关键是打分函数的设置，设置打分函数为Mark(A,a_i)＝Q(a_i)(设Q(a_i)为访问频率)每个模式记录的权重为：

ΔMark表示N个数据记录模式中的访问频率之差的最大值，

具体的，步骤S43中，LQ-Trie＝DPK的算法步骤为：

Step2：根据数据集D和项目集I，构造多级查询树

Step3：从

Step5：使用拉普拉斯机制向集合B中添加噪声

得到集合C，并且根据C和A构造并发布新的多集查询树；

S5：拟合轨迹长度的分布

轨迹综合算法

AdaTrace的综合算法结合了四个功能：密度感知网格A，移动性模型Π

(Dreal)，行程分布R和每次旅行的分布的长度集合L，它的输出基于合成轨迹；

算法：Trajectorysynthesisalgorithm

Input:网格A，形成分布R，可移动模型Π，长度分布L

Output:候选合成轨迹T_syn

从R的pmf里随机选取一个样本C_start→C_end

对于路线C_start→C_end，从L中得到拟合的概率分布PD

从PD中挑选一个随机样本

将T_syn使用T_syn[1]＝C_start和T_syn[l]＝C_end初始化

fori＝2tol-1do

for C_cand∈A do

从Π中重新得到：

w₁＝Pr(T[i]＝C_cand|T[i]...T[i-1])和

w₂＝Pr(T[l]＝C_end|T[i]...T[i-1]C_cand)

将C_cand的权重设置为w₁·w₂

end

来自A的样本C_chosen，其概率与上面计算的去权重成正比

设置T_syn[i]＝C_chosen

end

返回T^syn

上面的伪代码为定义确定起点和终点之间的单次行程轨迹，其中，每个用户的中的GPS记录对应于短期旅行，例如Uber或出租车，但是，如果是长时间(例如几天)收集的，则用户的记录可能包含多次行程记录，在这种情况下，每个用户可以多次运行合成算法，并且下一个轨迹的起始位置等于上一个轨迹的最后已知位置，接着将这些轨迹连接在一起，以形成具有所需行程次数的用户最终GPS记录；

S6：以马尔科夫链进行新轨迹的生成

trajectory-specific流动模型，每个概率，是trajectory-specific模型捕获单个用户的移动性模型，以表示；

归结为含的序列与的序列之比，特定轨迹的移动性模型是每个概率的集合，捕获了中单个用户的移动性，接着通过对彼此的各个移动性模型求平均，来找到整个的聚合移动性模型；

类似于网格构建过程中的噪声添加模型也受到拉普拉斯噪声的扰动，以满足差分隐私，将噪声添加到马尔可夫概率中，使得马尔可夫概率以序列计数的比来计算，并认为敏感度等于1，所需的噪声数量有限，因此，可以保持对噪声的鲁棒性；

S7：对抗网络

S71：对抗网络建模

继Goodfellow等，进一步定义了一个鉴别器网络

将它与

交替进行优化，以解决对抗性最小——最大问题：

S72：感知损失函数

和对抗性损失的加权总和，如下：

S73：内容丢失

按轨迹数据计算的的MSE损失计算如下：

的特征表示与参考轨迹数据I^HR之间的欧氏距离：

其中，W_i,j和H_i,j描述了VGG网络中各特征轨迹数据的维数；

S74：对抗损失

对所有训练样本的概率定义

为：

其中，

为重新生成轨迹数据，

为高仿真轨迹数据的概率，为了得到更好的梯度，最小化

而不是

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于对抗网络的位置差分隐私保护方法，其特征在于，包括以下步骤：

S1：基于差分隐私机制的位置数据隐私保护；

S2：建立密度感知网络；

S3：定义点的重要性程度参数；

S4：处理重要性程度高的点；

S5：拟合轨迹长度的分布；

S6：以马尔科夫链进行新轨迹的生成；

S7：对抗网络。

2.根据权利要求1所述的一种基于对抗网络的位置差分隐私保护方法，其特征在于：所述步骤S1中，基于差分隐私机制的位置数据隐私保护的具体步骤为：

S11：差分隐私

Pr[K(D)∈O]≤e^ε×Pr[K(D′)∈O]

S12：不确定图

S13：邻近图

则称G₁、G₂为邻近图，由于V₁＝V₂,只要

即E₁和E₂的汉明距离为1，我们就称G₁、G₂为邻近图，

S14：敏感度

3.根据权利要求1所述的一种基于对抗网络的位置差分隐私保护方法，其特征在于：所述步骤S2中，建立密度感知网络的具体步骤为：

S21：密度感知网络的建立

其中，g是标准化之后的值，将g写为集合的形式：

S22：双层网格行程的优化

在获得顶层行程数

时，使用预算θε₃，在获底层的行程数

的噪声值，可以获得优化的行程路径，记为

表示为：

最后，在R的定义中使用优化的行程计数

代替

4.根据权利要求1所述的一种基于对抗网络的位置差分隐私保护方法，其特征在于：所述步骤S3中，定义点的重要性程度参数的具体步骤为：

S31：定义节点的聚类系数和访问能力参数

S311：求节点的聚类系数

S312：求节点的综合访问能力值

Step1：定义节点访问能力值

Step2：标准化

Step3：定义节点综合访问能力值

P是一个随机矩阵，所有的行的总和为1，以矩阵形式重写

为V_γ-(1-γ)Res+γPV_γ

其中Res＝(Res(1),Res(2),...Res(|N|))^T，并且V_γ＝(V_γ(1),V_γ(2),...,V_γ(|N|))^T，递归等式

可以看做是折现因子为γ的折现奖励的Bellman方程，节点集N上转移概率矩阵为P的马尔科夫链，Rew＝(Rew(1),Rew(2),...Rew(|N|))，并且Rew(n)＝(1-γ)Res(n),n∈N，节点n的排名矩阵V_γ(n)，是转移概率为P的马尔科夫链的预期折扣累积奖励，即

其中n₀,n₁,n₂,...表示采样路径，

V_γ为公式V_γ-(1-γ)Res+γPV_γ的唯一解，由于P是随机的，所以(1-γP),0≤γ≤1是可逆的，因此可以得出

V_γ＝(1-γP)^-1(1-γ)Res

Step4：归一化

对聚集系数归一化处理：

对节点资源承载能力归一化处理：

S313：求节点能力参数

θ_n＝a_n′+αb_n′

S32：正态双卵模型为节点分类

以

5.根据权利要求1所述的一种基于对抗网络的位置差分隐私保护方法，其特征在于：所述步骤S4中，处理重要性程度高的点的具体步骤为：

S41：多边形质心模型

根据形成的多边形的定点计算多边形质心，公式如下：

多边形质心形成为集合J,其中j_i(x,y)∈J；

S42：根据拉普拉斯机制添加噪音

输入隐私保护等级ε和多边形质心集J，然后生成噪声

满足概率Pr(j(x,y),λ)使得：

其中，j(x,y)表示多边形质心与对应坐标，并且

向J中添加拉普拉斯噪声

其中，j_i∈J，j_i(x,y)代表第i个多边形的质心，

S43：建立位置搜索树

S44：基于指数机制遍历与提取位置搜索树

首先按层遍历

Mark(A,a_i)＝Q(a_i)

其中，Q(a_i)表示a_i模式的访问频率；

Step2：计算每个模式记录的权重：

并按降序排列；

Step3：从集合A中以概率

选取k个频繁模式记录a_i，该集合为B；

ΔMark表示N个数据记录模式中的访问频率之差的最大值，

6.根据权利要求5所述的一种基于对抗网络的位置差分隐私保护方法，其特征在于：所述步骤S43中，LQ-Trie＝DPK的算法步骤为：

Step2：根据数据集D和项目集I，构造多级查询树

Step3：从

Step5：使用拉普拉斯机制向集合B中添加噪声

得到集合C，并且根据C和A构造并发布新的多集查询树。

7.根据权利要求1所述的一种基于对抗网络的位置差分隐私保护方法，其特征在于：所述步骤S5中，拟合轨迹长度的分布的具体步骤为：

轨迹综合算法

算法：Trajectorysynthesisalgorithm

Input:网格A，形成分布R，可移动模型Π，长度分布L

Output:候选合成轨迹T_syn

从R的pmf里随机选取一个样本C_start→C_end

对于路线C_start→C_end，从L中得到拟合的概率分布PD

从PD中挑选一个随机样本

将T_syn使用T_syn[1]＝C_start和T_syn[l]＝C_end初始化

fori＝2tol-1do

forC_cand∈Ado

从Π中重新得到：

w₁＝Pr(T[i]＝C_cand|T[i]...T[i-1])和

w₂＝Pr(T[l]＝C_end|T[i]...T[i-1]C_cand)

将C_cand的权重设置为w₁·w₂

end

来自A的样本C_chosen，其概率与上面计算的去权重成正比

设置T_syn[i]＝C_chosen

end

返回T^syn

8.根据权利要求1所述的一种基于对抗网络的位置差分隐私保护方法，其特征在于：所述步骤S6中，以马尔科夫链进行新轨迹的生成的具体步骤为：

Pr(T[n+1]＝C_next|T[1]...T[n])

＝Pr(T[n+1]＝C_next|T[n-r+1]T[n-r+2]...T[n])

9.根据权利要求1所述的一种基于对抗网络的位置差分隐私保护方法，其特征在于：所述步骤S7中，对抗网络的具体步骤为：

S71：对抗网络建模

继Goodfellow等，进一步定义了一个鉴别器网络

将它与

交替进行优化，以解决对抗性最小——最大问题：

S72：感知损失函数

和对抗性损失的加权总和，如下：

S73：内容丢失

按轨迹数据计算的的MSE损失计算如下：

的特征表示与参考轨迹数据I^HR之间的欧氏距离：

其中，W_i,j和H_i,j描述了VGG网络中各特征轨迹数据的维数；

S74：对抗损失

对所有训练样本的概率定义

为：

其中，

为重新生成轨迹数据，

为高仿真轨迹数据的概率，为了得到更好的梯度，最小化

而不是