CN112001415A - 一种基于对抗网络的位置差分隐私保护方法 - Google Patents
一种基于对抗网络的位置差分隐私保护方法 Download PDFInfo
- Publication number
- CN112001415A CN112001415A CN202010678689.9A CN202010678689A CN112001415A CN 112001415 A CN112001415 A CN 112001415A CN 202010678689 A CN202010678689 A CN 202010678689A CN 112001415 A CN112001415 A CN 112001415A
- Authority
- CN
- China
- Prior art keywords
- node
- probability
- value
- data
- nodes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000009826 distribution Methods 0.000 claims abstract description 80
- 230000007246 mechanism Effects 0.000 claims abstract description 73
- 238000004422 calculation algorithm Methods 0.000 claims description 59
- 230000006870 function Effects 0.000 claims description 52
- 239000011159 matrix material Substances 0.000 claims description 32
- 238000010606 normalization Methods 0.000 claims description 32
- 230000004913 activation Effects 0.000 claims description 20
- 230000035945 sensitivity Effects 0.000 claims description 17
- 230000002776 aggregation Effects 0.000 claims description 16
- 238000004220 aggregation Methods 0.000 claims description 16
- 230000007704 transition Effects 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 15
- 230000015572 biosynthetic process Effects 0.000 claims description 12
- 230000000694 effects Effects 0.000 claims description 12
- 238000005295 random walk Methods 0.000 claims description 12
- 238000005070 sampling Methods 0.000 claims description 12
- 238000003786 synthesis reaction Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000003044 adaptive effect Effects 0.000 claims description 8
- 230000005540 biological transmission Effects 0.000 claims description 8
- 239000002131 composite material Substances 0.000 claims description 8
- 238000005457 optimization Methods 0.000 claims description 8
- 238000011176 pooling Methods 0.000 claims description 8
- 238000004088 simulation Methods 0.000 claims description 8
- 239000000126 substance Substances 0.000 claims description 8
- 238000012360 testing method Methods 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 6
- 230000004048 modification Effects 0.000 claims description 5
- 238000012986 modification Methods 0.000 claims description 5
- 230000002441 reversible effect Effects 0.000 claims description 5
- CIWBSHSKHKDKBQ-JLAZNSOCSA-N Ascorbic acid Chemical compound OC[C@H](O)[C@H]1OC(=O)C(O)=C1O CIWBSHSKHKDKBQ-JLAZNSOCSA-N 0.000 claims description 4
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 4
- 230000009471 action Effects 0.000 claims description 4
- 230000004931 aggregating effect Effects 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 4
- 238000012805 post-processing Methods 0.000 claims description 4
- 238000011160 research Methods 0.000 claims description 4
- 101150049349 setA gene Proteins 0.000 claims description 4
- 238000009827 uniform distribution Methods 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 230000004075 alteration Effects 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
- G06F18/295—Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W12/00—Security arrangements; Authentication; Protecting privacy or anonymity
- H04W12/02—Protecting privacy or anonymity, e.g. protecting personally identifiable information [PII]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computational Mathematics (AREA)
- Mathematical Optimization (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Security & Cryptography (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种基于对抗网络的位置差分隐私保护方法,属于位置隐私保护技术领域,包括以下步骤:S1:基于差分隐私机制的位置数据隐私保护;S2:建立密度感知网络;S3:定义点的重要性程度参数;S4:处理重要性程度高的点;S5:拟合轨迹长度的分布;S6:以马尔科夫链进行新轨迹的生成;S7:对抗网络;本发明通过为图中的边分配概率值来实现隐私保护,对原图数据改变较小,一定程度上保持了较高的原数据效用;另一方面考虑私人位置轨迹信息的节点属性,相较于只保护节点而忽视边,保护更加全面有效,使得不法分子无法以节点推测边的轨迹,也无法通过边的轨迹推测节点的位置,为私人位置隐私的动态位置问题提供良好的保障。
Description
技术领域
本发明属于位置隐私保护技术领域,具体涉及一种基于对抗网络的位置差分隐私保护方法。
背景技术
随着移动设备和基于位置的服务越来越多,无处不在,移动用户位置跟踪的隐私保护成为一个主要问题。
传统的位置隐私保护技术主要集中在基于点的位置隐私,这通常是通过使用隐身区域对用户迹线中的每个位置点进行干扰或混淆来实现的,目的是确保位置k匿名,然而,这些基于点的隐私机制不足以保护用户轨迹的隐私,即空间相关的位置的时间序列。
多项研究表明,轨迹中每个基于点的位置的独立扰动都有致命的缺点,包括逆向工程和推理供给的敏感性,在这些攻击中,对手观察到一系列受干扰的位置,以推断出移动方式,然后将特定的移动方式与特定的用户联系起来,这种扰动还会遭受空间效用的积聚损失,并且容易受到已知位置的跟踪和攻击。
发明内容
为解决上述背景技术中提出的问题。本发明提供了一种基于对抗网络的位置差分隐私保护方法,具有在抗顶点身份攻击的同时保证了图结构数据最小化失真的特点。
为实现上述目的,本发明提供如下技术方案:一种基于对抗网络的位置差分隐私保护方法,包括以下步骤:
S1:基于差分隐私机制的位置数据隐私保护;
S2:建立密度感知网络;
S3:定义点的重要性程度参数;
S4:处理重要性程度高的点;
S5:拟合轨迹长度的分布;
S6:以马尔科夫链进行新轨迹的生成;
S7:对抗网络。
本发明进一步的,所述步骤S1中,基于差分隐私机制的位置数据隐私保护的具体步骤为:
S11:差分隐私
存在两个相邻数据集D、D′和算法K,K(D)表示算法K在数据集D上的输出集合,O是算法K所有输出值的集合,若算法K在数据集D和D′上任意输出结果为满足下面不等式(1):
Pr[K(D)∈O]≤eε×Pr[K(D′)∈O]
则算法K满足ε差分隐私,ε称为差分隐私预算,ε的取值决定了保护效果,ε取值的大小与与保护效果成正比,与数据失真程度成反比,差分隐私以其严格的数学定义为隐私的评价提供了理论依据;
差分隐私实现机制包括:指数机制、拉普拉斯机制和高斯机制,其中,指数机制一般应用于非指数类数据,拉普拉斯机制和高斯机制适用于数值型数据的隐私保护;
S12:不确定图
给定图G=(V,E),G顶点上的不确定图是G′=(V,P),其中P:Vp→[0,1]是将概率分配给无序顶点对的函数,不确定图G′具有原始图G相同的顶点V,对于确定性图,我们可以假定所有边的概率等于1;
S13:邻近图
给定两个图G1=(V1,E1)和G2=(V2,E2),若在G1、G2中有
S14:敏感度
给定一个函数f:G→G″,其中,G、G″具有相同的顶点集合,函数f的全局敏感度为:
其中,G1、G2是邻近图,G″为经过随机算法后的输出图,f是查询函数,表示对于G1、G2中的边ei,查询边ei是否存在于G1和G2中。
本发明进一步的,所述步骤S2中,建立密度感知网络的具体步骤为:
S21:密度感知网络的建立
使用具有密度自适应单元格粒度的网络,对于低密度区域,将放置较大的cell,对于高密度区域,将区域划分为更细粒度的较小单元,首先,放置一个N×N均匀的单元格层,这样顶层一共有N2个cell,用C1,C2,...,CN来表示,将轨迹用T来表示,路径总和T所经过的cell的数目为|T|,并统计每一个轨迹所占用的单元格下标,以及计算在每一个单元格Ci中,轨迹T所占用的长度,并将其标准化处理,即该单元格中标准化之后的访问次数:
其中,g是标准化之后的值,将g写为集合的形式:
W={g(Dreal,C1),g(Dreal,C1),...,g(Dreal,CN2)}
ΔW=1,只需在每个g(Dreal,Ci)中添加Lap(1/ε1)即可获得加噪之后的并且细分Ci,使得每个Ci由g(Dreal,Ci)进一步分为Mi×Mi的cell,Mi,即每个单元格划分为的小单元格的数目,其值以分段函数的形式来定义:
S22:双层网格行程的优化
网格A离散化为Ω(Dreal),以起始单元格Cstart和目标单元格Cend来表示一次行动的路线,如下所示:Cstart→Cend,令h(Cstart→Cend)为计算数据库Dreal中旅行次数Cstart→Cend的函数,并且h表示差分隐私,X为行程分布A×A的整个范围内的随机变量,则行程分布R的计算方式如下:
其中,R是一个概率质量函数,其项的总和为1,在两层网格的情况下,一个GPS位置由顶层和底层单元同时索引,可以使用约束推理,以提高准确性和一致性,采用Folloejng线性普通最小二乘(OLS)方法,用Ci表示网格最顶层的单元格,用Ci,j表示网格最底层的单元格,其中在获得顶层行程数时,使用预算θε3,在获底层的行程数时,使用(1-θ)ε3,如果没有隐私干扰,使用无噪声计数h代替即h(Ci→Cj),h(Ci→Cj)=∑k∑lh(Ci,k→Cj,l),在随机干扰每个h后,此值可能不成立,为了重新建立一致性,并最大程度地减少噪声影响,使满足给定的噪声值,可以获得优化的行程路径,记为表示为:
在优化底层计数时,上面计算出的优化顶层计数中的差异平均分布在底层单元中:
本发明进一步的,所述步骤S3中,定义点的重要性程度参数的具体步骤为:
S31:定义节点的聚类系数和访问能力参数
S311:求节点的聚类系数
意为相邻节点的度的总和除以相邻节点数,Mn为相邻节点,N为相邻节点数;
S312:求节点的综合访问能力值
Step1:定义节点访问能力值
以中心节点为研究对象,将其抽象为星型拓扑图,以中心节点的计算资源乘以其相邻节点间距离值的总和,来计算中心节点的综合访问频率大小值,
其中,C(n)为该中心节点的访问频率,B(n,m)为n,m两点间的路径长度,因一条链路为两端两个节点共用,因此计算路径长度值时需除以2;
Step2:标准化
其中,以中心节点的访问能力值分别依次除以相邻节点访问能力值,将结果存储在矩阵Res中,即Res=(Res(1),Res(2),...,Res(N))T;
Step3:定义节点综合访问能力值
bn以马尔科夫随机游走模型计算,同时考虑该点与其邻居节点,以该点为初始状态,以适当的随机游动累积报酬的形式,将邻域内的资源聚合起来计算,采用递归的思想求中心节点的综合访问能力值,如下:
其中,γ为相邻节点的相对权重,P为转移概率矩阵,P为一个|N|×|N|矩阵,定义如下:
Vγ-(1-γ)Re s+γPVγ
其中Re s=(Re s(1),Re s(2),...Re s(|N|))T,并且Vγ=(Vγ(1),Vγ(2),...,Vγ(|N|))T,递归等式可以看做是折现因子为γ的折现奖励的Bellman方程,节点集N上转移概率矩阵为P的马尔科夫链,Re w=(Re w(1),Re w(2),...Re w(|N|)),并且Re w(n)=(1-γ)Re s(n),n∈N,节点n的排名矩阵Vγ(n),是转移概率为P的马尔科夫链的预期折扣累积奖励,即
其中n0,n1,n2,...表示采样路径,
Vγ为公式Vγ-(1-γ)Re s+γPVγ的唯一解,由于P是随机的,所以(1-γP),0≤γ≤1是可逆的,因此可以得出
Vγ=(1-γP)-1(1-γ)Re s
根据以上定义,节点的排名Vγ(n)越高,该节点及其附近的访问能力值越高,折扣因子γ是对邻域大小的度量,在确定节点度量时要加以考虑,γ=0时仅考虑本节点资源,而随着γ的增加,在矩阵中靠近节点的拓扑图部分占比越来越大;
Step4:归一化
为消除节点聚集系数与节点访问能力值的量纲,分别对其进行归一化处理,如下:
对聚集系数归一化处理:
对节点资源承载能力归一化处理:
S313:求节点能力参数
考虑节点在拓扑结构图中的聚集程度,以及访问能力的大小,将节点能力值量化如下:
θn=an′+αbn′
其中,an′为归一化后的节点聚类系数,bn′为归一化后的节点访问能力,α为访问能力能力与节点聚类程度对节点能力参数的影响比重;
S32:正态双卵模型为节点分类
采用项目反应理论中的正态双卵模型判定节重要性程度为强的概率,为节点重要性程度的强弱进行分类,以便为不同类型的节点选取不同的备份策略:
其中,Q(θn)为对应节点被判定重要性程度为强的概率,Pi(θ)是能力为强节点对应的判断概率,qi(θ)是能力为弱节点的判断概率,表示为正态双卵曲线的陡峭程度,以节点聚类系数的均值计算,为偏置因子,以节点的访问能力的均值表示,θn为节点n的能力参数,为便于该模型中计算,使θn分布在[-2,2],因此对其进行数值范围调整如下:
本发明进一步的,所述步骤S4中,处理重要性程度高的点的具体步骤为:
S41:多边形质心模型
比例集合B,根据距离选择相关的和最大尺寸的点来构建多边形,例如,对一个多边形,该算法从B的坐标为P(xi,yi)的i中选取N个点作为顶点,其中,i=1,2,3,...,N,其中N个点之一位于的原始轨迹,其他点在该点附近;
根据形成的多边形的定点计算多边形质心,公式如下:
其中,Pi(xk,yk)是第k个顶点的坐标,在第i_th个多边形中,Pi是第i_th个多边形的顶点数,而ji(x,y)是第i_th个多边形质心的坐标,
多边形质心形成为集合J,其中ji(x,y)∈J;
S42:根据拉普拉斯机制添加噪音
向J中添加拉普拉斯噪声
适用修改后的多边形中心体G替换相应的保护节点f∈A,并且然后发布新的轨迹数据I′,
S43:建立位置搜索树
首先建立位置搜索树(LQ-Trie)上对数据假造,最后后置处理加噪的数据返回位置搜索树,发布噪声后的位置搜索树(LQ-Trie);
S44:基于指数机制遍历与提取位置搜索树
其中,Pr(ai)表示被选取的概率,ai·weight表示ai模式的权重,基于指数机制的选择算法步骤描述如下:
Step1:输入频繁模式记录集合A,给A的N个模式记录ai打分,设置为:
Mark(A,ai)=Q(ai)
其中,Q(ai)表示ai模式的访问频率;
Step2:计算每个模式记录的权重:
并按降序排列;
上述指数机制完成选择,而指数机制的关键是打分函数的设置,设置打分函数为Mark(A,ai)=Q(ai)(设Q(ai)为访问频率),每个模式记录的权重为:
其中,ε1表示选取k个模式所分配的隐私预算,Mark(A,ai)表示ai的打分值,ΔMark计算如下式所示:
ΔMark表示N个数据记录模式中的访问频率之差的最大值,
本发明进一步的,所述步骤S43中,LQ-Trie=DPK的算法步骤为:
Step1:输入数据集D和差分隐私保护参数ε1,ε2,k,min_count,ε=ε1+ε2;
Step4:使用指数机制从集合A中选择访问频率项B,其中每个选择的数据记录都满足以下条件:
其中,B的大小为k,ai∈A为访问频率项记录,εi为相应的的隐私保护等级,Rank(A,ai)为ai的评分值,ΔRank为评分函数灵敏度;
本发明进一步的,所述步骤S5中,拟合轨迹长度的分布的具体步骤为:
将观察到的行程长度视为直方图,考虑多个不同形状的已知分布,如均匀分布、指数分布和泊松分布,作为捕获直方图的候选分布,候选分布有一个共同的特点,它们的参数直接关系到汇总统计量,而汇总统计量可以从中得到,例如,泊松分布有一个值为平均长度的参数,而指数分布的参数与中位数长度med有这样的关系;可以使用拉普拉斯和指数机制私下获取平均值和中位数等统计信息,将其分解成一个噪声总和除以一个噪声总数的形式,来获得一个私有的均值,其中拉普拉斯机制用于注入噪声;私有中位数可以使用Cormode等人对指数的修改来获取;这个机制返回的是有噪声的中位数x,而不是实际中的中位数,这里q意为,当x接近实际的中位数,那么它的rank将与实际中位数的rank相近,因此,每个候选人的分数都会受到rank偏离的程度的负影响;
在构建了上述多个候选分布之后,选择一个作为最合适的分布,将其存储在AdaTrace的内存中,并删除其余的分布,使用拟合优度检验来确定哪个分布是最佳拟合,使用检验统计量的值,由于其差分隐私应用;
轨迹综合算法
AdaTrace的综合算法结合了四个功能:密度感知网格A,移动性模型Π(Dreal),行程分布R和每次旅行的分布的长度集合L,它的输出基于合成轨迹;
算法:Trajectorysynthesisalgorithm
Input:网格A,形成分布R,可移动模型Π,长度分布L
Output:候选合成轨迹Tsyn
从R的pmf里随机选取一个样本Cstart→Cend
对于路线Cstart→Cend,从L中得到拟合的概率分布PD
从PD中挑选一个随机样本
将Tsyn使用Tsyn[1]=Cstart和Tsyn[l]=Cend初始化
fori=2tol-1do
for Ccand∈A do
从Π中重新得到:
w1=Pr(T[i]=Ccand|T[i]...T[i-1])和
w2=Pr(T[l]=Cend|T[i]...T[i-1]Ccand)
将Ccand的权重设置为w1·w2
end
来自A的样本Cchosen,其概率与上面计算的去权重成正比
设置Tsyn[i]=Cchosen
end
返回Tsyn
首先,通过根据形成分布进行采样来确定合成轨迹的起点和终点,其次,从中的适当路径长度分布L中取样的长度,第三,将初始化,并将第一个位置作为形成的起始单元格,最后一个位置作为形成的目的单元格,第四,给定的两个端点,在移动性模型上采用随机游走找到中间位置,当考虑网络A的单元格作为候选,确定的第i个位置时,将为每个候选对象分配一个权重,该权重由表示为和的两个子权重组成,进行回溯,并找到下一个位置是的概率,就像马尔科夫假设的应用一样,同时,进行前向查找,并找到当前位置是时,而最终位置为的概率,这是一个-步的传输概率,是使用1步传输概率的组合计算出来的为了提高效率,在学习之后预先计算了多步转换概率,因此对于不同的不重复相同的计算;
上面的伪代码为定义确定起点和终点之间的单次行程轨迹,其中,每个用户的中的GPS记录对应于短期旅行,例如Uber或出租车,但是,如果是长时间(例如几天)收集的,则用户的记录可能包含多次行程记录,在这种情况下,每个用户可以多次运行合成算法,并且下一个轨迹的起始位置等于上一个轨迹的最后已知位置,接着将这些轨迹连接在一起,以形成具有所需行程次数的用户最终GPS记录。
本发明进一步的,述步骤S6中,以马尔科夫链进行新轨迹的生成的具体步骤为:
使用Markov链进行移动性建模,r阶的马尔科夫链表示为轨迹中的下一个位置取决于先前r阶的位置,而不是先前所有的位置,基于网络的离散化建立离散状态的马尔科夫链,将自适应网格中的每个单元格看做马尔科夫链中的一个状态,假设每个轨迹表示为一个按时间顺序排列的单元格序列,并由T[j]表示轨迹T中的第j条,写出T到具有下一个单元格的转移概率,观察其先前的n个位置:
Pr(T[n+1]=Cnext|T[1]...T[n])
=Pr(T[n+1]=Cnext|T[n-r+1]T[n-r+2]...T[n])
trajectory-specific流动模型,每个概率Π(T),T[n-r+1]T[n-r+2]...T[n]是trajectory-specific模型捕获单个用户的移动性模型,以Π(Dreal)表示;
归结为含T[n-r+1]T[n-r+2]...T[n]Cnext的序列与T[n-r+1]T[n-r+2]...T[n]的序列之比,特定轨迹的移动性模型Π(T)是每个概率Pr(T[n+1]|T[1]...T[n])的集合,捕获了Dreal中单个用户的移动性,接着通过对彼此的各个移动性模型求平均,来找到整个Dreal的聚合移动性模型;
类似于网格构建过程中的噪声添加模型Π(Dreal)也受到拉普拉斯噪声的扰动,以满足差分隐私,将噪声添加到马尔可夫概率中,使得马尔可夫概率以序列计数的比来计算,并认为敏感度等于1,所需的噪声数量有限,因此,Π(Dreal)可以保持对噪声的鲁棒性。
本发明进一步的,所述步骤S7中,对抗网络的具体步骤为:
S71:对抗网络建模
总体思想是,它允许训练生成模型G,其目的是欺骗区分鉴别器D,该鉴别器D被训练为区分高仿真轨迹数据和真实轨迹数据,通过这种方法,生成器可以学习创建和真实轨迹数据相似的结果,因此很难用D进行分类;
在深度生成网络G,其核心是B残差块,使用两个具有3×3小内核和64个特征轨迹数据的卷积层,然后使用归一化层和ParametricReLU作为激活函数,通过两个训练好了的子像素卷积层来提高输入图像的仿真率,为了从生成的SR轨迹样本中区分出真实的HR轨迹数据,训练了一个判别网络,使用LeakyReLU激活(α=0.2),并避免整个网络的最大池化问题,它包含8个卷积层,其卷积核的数量增加了3×3,与VGG网络一样,从64个核增加到512个核,增加了两倍,每当特征数量增加一倍时,将使用卷积来降低图像仿真率,通过生成的512个特征图,与两个密集层和一个最终的sigmoid激活函数,来获得样本分类的概率;
S72:感知损失函数
其中,第一项为内容损失,第二项为对抗损失,一起组成感知损失基于VGG的内容损失;
S73:内容丢失
按轨迹数据计算的的MSE损失计算如下:
根据Simonyan和Zisserman中描述的与训练的19层VGG网络的ReLU激活层来定义VGG损失,用φi,j,j表示通过第j个卷积(激活后),在第i个最大池化层之前的特征图,然后将VGG损失定义为,重构轨迹数据的特征表示与参考轨迹数据IHR之间的欧氏距离:
其中,Wi,j和Hi,j描述了VGG网络中各特征轨迹数据的维数;
S74:对抗损失
与现有技术相比,本发明的有益效果是:
本发明通过为图中的边分配概率值来实现隐私保护,对原图数据改变较小,一定程度上保持了较高的原数据效用;另一方面考虑私人位置轨迹信息的节点属性,相较于只保护节点而忽视边,保护更加全面有效,使得不法分子无法以节点推测边的轨迹,也无法通过边的轨迹推测节点的位置,为私人的位置隐私的动态位置问题提供良好的保障。
附图说明
图1为本发明的流程图;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明提供以下技术方案:一种基于对抗网络的位置差分隐私保护方法,包括以下步骤:
S1:基于差分隐私机制的位置数据隐私保护;
S2:建立密度感知网络;
S3:定义点的重要性程度参数;
S4:处理重要性程度高的点;
S5:拟合轨迹长度的分布;
S6:以马尔科夫链进行新轨迹的生成;
S7:对抗网络。
具体的,步骤S1中,基于差分隐私机制的位置数据隐私保护的具体步骤为:
S11:差分隐私
存在两个相邻数据集D、D′和算法K,K(D)表示算法K在数据集D上的输出集合,O是算法K所有输出值的集合,若算法K在数据集D和D′上任意输出结果为满足下面不等式(1):
Pr[K(D)∈O]≤eε×Pr[K(D′)∈O]
则算法K满足ε差分隐私,ε称为差分隐私预算,ε的取值决定了保护效果,ε取值的大小与与保护效果成正比,与数据失真程度成反比,差分隐私以其严格的数学定义为隐私的评价提供了理论依据;
差分隐私实现机制包括:指数机制、拉普拉斯机制和高斯机制,其中,指数机制一般应用于非指数类数据,拉普拉斯机制和高斯机制适用于数值型数据的隐私保护;
S12:不确定图
给定图G=(V,E),G顶点上的不确定图是G′=(V,P),其中P:Vp→[0,1]是将概率分配给无序顶点对的函数,不确定图G′具有原始图G相同的顶点V,对于确定性图,我们可以假定所有边的概率等于1;
S13:邻近图
S14:敏感度
给定一个函数f:G→G″,其中,G、G″具有相同的顶点集合,函数f的全局敏感度为:
其中,G1、G2是邻近图,G″为经过随机算法后的输出图,f是查询函数,表示对于G1、G2中的边ei,查询边ei是否存在于G1和G2中。
具体的,步骤S2中,建立密度感知网络的具体步骤为:
S21:密度感知网络的建立
使用具有密度自适应单元格粒度的网络,对于低密度区域,将放置较大的cell,对于高密度区域,将区域划分为更细粒度的较小单元,首先,放置一个N×N均匀的单元格层,这样顶层一共有N2个cell,用C1,C2,...,CN来表示,将轨迹用T来表示,路径总和T所经过的cell的数目为|T|,并统计每一个轨迹所占用的单元格下标,以及计算在每一个单元格Ci中,轨迹T所占用的长度,并将其标准化处理,即该单元格中标准化之后的访问次数:
其中,g是标准化之后的值,将g写为集合的形式:
ΔW=1,只需在每个g(Dreal,Ci)中添加Lap(1/ε1)即可获得加噪之后的并且细分Ci,使得每个Ci由g(Dreal,Ci)进一步分为Mi×Mi的cell,Mi,即每个单元格划分为的小单元格的数目,其值以分段函数的形式来定义:
S22:双层网格行程的优化
网格A离散化为Ω(Dreal),以起始单元格Cstart和目标单元格Cend来表示一次行动的路线,如下所示:Cstart→Cend,令h(Cstart→Cend)为计算数据库Dreal中旅行次数Cstart→Cend的函数,并且h表示差分隐私,X为行程分布A×A的整个范围内的随机变量,则行程分布R的计算方式如下:
其中,R是一个概率质量函数,其项的总和为1,在两层网格的情况下,一个GPS位置由顶层和底层单元同时索引,可以使用约束推理,以提高准确性和一致性,采用Folloejng线性普通最小二乘(OLS)方法,用Ci表示网格最顶层的单元格,用Ci,j表示网格最底层的单元格,其中在获得顶层行程数时,使用预算θε3,在获底层的行程数时,使用(1-θ)ε3,如果没有隐私干扰,使用无噪声计数h代替即h(Ci→Cj),h(Ci→Cj)=∑k∑lh(Ci,k→Cj,l),在随机干扰每个h后,此值可能不成立,为了重新建立一致性,并最大程度地减少噪声影响,使满足给定的噪声值,可以获得优化的行程路径,记为表示为:
在优化底层计数时,上面计算出的优化顶层计数中的差异平均分布在底层单元中:
具体的,步骤S3中,定义点的重要性程度参数的具体步骤为:
S31:定义节点的聚类系数和访问能力参数
S311:求节点的聚类系数
意为相邻节点的度的总和除以相邻节点数,Mn为相邻节点,N为相邻节点数;
S312:求节点的综合访问能力值
Step1:定义节点访问能力值
以中心节点为研究对象,将其抽象为星型拓扑图,以中心节点的计算资源乘以其相邻节点间距离值的总和,来计算中心节点的综合访问频率大小值,
其中,C(n)为该中心节点的访问频率,B(n,m)为n,m两点间的路径长度,因一条链路为两端两个节点共用,因此计算路径长度值时需除以2;
Step2:标准化
其中,以中心节点的访问能力值分别依次除以相邻节点访问能力值,将结果存储在矩阵Res中,即Res=(Res(1),Res(2),...,Res(N))T;
Step3:定义节点综合访问能力值
bn以马尔科夫随机游走模型计算,同时考虑该点与其邻居节点,以该点为初始状态,以适当的随机游动累积报酬的形式,将邻域内的资源聚合起来计算,采用递归的思想求中心节点的综合访问能力值,如下:
其中,γ为相邻节点的相对权重,P为转移概率矩阵,P为一个|N|×|N|矩阵,定义如下:
Vγ-(1-γ)Re s+γPVγ
其中Re s=(Re s(1),Re s(2),...Re s(|N|))T,并且Vγ=(Vγ(1),Vγ(2),...,Vγ(|N|))T,递归等式可以看做是折现因子为γ的折现奖励的Bellman方程,节点集N上转移概率矩阵为P的马尔科夫链,Re w=(Re w(1),Re w(2),...Re w(|N|)),并且Re w(n)=(1-γ)Re s(n),n∈N,节点n的排名矩阵Vγ(n),是转移概率为P的马尔科夫链的预期折扣累积奖励,即
其中n0,n1,n2,...表示采样路径,
Vγ为公式Vγ-(1-γ)Re s+γPVγ的唯一解,由于P是随机的,所以(1-γP),0≤γ≤1是可逆的,因此可以得出
Vγ=(1-γP)-1(1-γ)Re s
根据以上定义,节点的排名Vγ(n)越高,该节点及其附近的访问能力值越高,折扣因子γ是对邻域大小的度量,在确定节点度量时要加以考虑,γ=0时仅考虑本节点资源,而随着γ的增加,在矩阵中靠近节点的拓扑图部分占比越来越大;
Step4:归一化
为消除节点聚集系数与节点访问能力值的量纲,分别对其进行归一化处理,如下:
对聚集系数归一化处理:
对节点资源承载能力归一化处理:
S313:求节点能力参数
考虑节点在拓扑结构图中的聚集程度,以及访问能力的大小,将节点能力值量化如下:
θn=an′+αbn′
其中,an′为归一化后的节点聚类系数,bn′为归一化后的节点访问能力,α为访问能力能力与节点聚类程度对节点能力参数的影响比重;
S32:正态双卵模型为节点分类
采用项目反应理论中的正态双卵模型判定节重要性程度为强的概率,为节点重要性程度的强弱进行分类,以便为不同类型的节点选取不同的备份策略:
其中,Q(θn)为对应节点被判定重要性程度为强的概率,Pi(θ)是能力为强节点对应的判断概率,qi(θ)是能力为弱节点的判断概率,表示为正态双卵曲线的陡峭程度,以节点聚类系数的均值计算,为偏置因子,以节点的访问能力的均值表示,θn为节点n的能力参数,为便于该模型中计算,使θn分布在[-2,2],因此对其进行数值范围调整如下:
具体的,步骤S4中,处理重要性程度高的点的具体步骤为:
S41:多边形质心模型
比例集合B,根据距离选择相关的和最大尺寸的点来构建多边形,例如,对一个多边形,该算法从B的坐标为P(xi,yi)的i中选取N个点作为顶点,其中,i=1,2,3,...,N,其中N个点之一位于的原始轨迹,其他点在该点附近;
根据形成的多边形的定点计算多边形质心,公式如下:
其中,Pi(xk,yk)是第k个顶点的坐标,在第i_th个多边形中,Pi是第i_th个多边形的顶点数,而ji(x,y)是第i_th个多边形质心的坐标,
多边形质心形成为集合J,其中ji(x,y)∈J;
S42:根据拉普拉斯机制添加噪音
向J中添加拉普拉斯噪声
适用修改后的多边形中心体G替换相应的保护节点f∈A,并且然后发布新的轨迹数据I′,
S43:建立位置搜索树
首先建立位置搜索树(LQ-Trie)上对数据假造,最后后置处理加噪的数据返回位置搜索树,发布噪声后的位置搜索树(LQ-Trie);
S44:基于指数机制遍历与提取位置搜索树
其中,Pr(ai)表示被选取的概率,ai·weight表示ai模式的权重,基于指数机制的选择算法步骤描述如下:
Step1:输入频繁模式记录集合A,给A的N个模式记录ai打分,设置为:
Mark(A,ai)=Q(ai)
其中,Q(ai)表示ai模式的访问频率;
Step2:计算每个模式记录的权重:
并按降序排列;
上述指数机制完成选择,而指数机制的关键是打分函数的设置,设置打分函数为Mark(A,ai)=Q(ai)(设Q(ai)为访问频率),每个模式记录的权重为:
其中,ε1表示选取k个模式所分配的隐私预算,Mark(A,ai)表示ai的打分值,ΔMark计算如下式所示:
ΔMark表示N个数据记录模式中的访问频率之差的最大值,
具体的,步骤S43中,LQ-Trie=DPK的算法步骤为:
Step1:输入数据集D和差分隐私保护参数ε1,ε2,k,min_count,ε=ε1+ε2;
Step4:使用指数机制从集合A中选择访问频率项B,其中每个选择的数据记录都满足以下条件:
其中,B的大小为k,ai∈A为访问频率项记录,εi为相应的的隐私保护等级,Rank(A,ai)为ai的评分值,ΔRank为评分函数灵敏度;
具体的,步骤S5中,拟合轨迹长度的分布的具体步骤为:
将观察到的行程长度视为直方图,考虑多个不同形状的已知分布,如均匀分布、指数分布和泊松分布,作为捕获直方图的候选分布,候选分布有一个共同的特点,它们的参数直接关系到汇总统计量,而汇总统计量可以从中得到,例如,泊松分布有一个值为平均长度的参数,而指数分布的参数与中位数长度med有这样的关系;可以使用拉普拉斯和指数机制私下获取平均值和中位数等统计信息,将其分解成一个噪声总和除以一个噪声总数的形式,来获得一个私有的均值,其中拉普拉斯机制用于注入噪声;私有中位数可以使用Cormode等人对指数的修改来获取;这个机制返回的是有噪声的中位数x,而不是实际中的中位数,这里q意为,当x接近实际的中位数,那么它的rank将与实际中位数的rank相近,因此,每个候选人的分数都会受到rank偏离的程度的负影响;
在构建了上述多个候选分布之后,选择一个作为最合适的分布,将其存储在AdaTrace的内存中,并删除其余的分布,使用拟合优度检验来确定哪个分布是最佳拟合,使用检验统计量的值,由于其差分隐私应用;
轨迹综合算法
AdaTrace的综合算法结合了四个功能:密度感知网格A,移动性模型Π(Dreal),行程分布R和每次旅行的分布的长度集合L,它的输出基于合成轨迹;
算法:Trajectorysynthesisalgorithm
Input:网格A,形成分布R,可移动模型Π,长度分布L
Output:候选合成轨迹Tsyn
从R的pmf里随机选取一个样本Cstart→Cend
对于路线Cstart→Cend,从L中得到拟合的概率分布PD
从PD中挑选一个随机样本
将Tsyn使用Tsyn[1]=Cstart和Tsyn[l]=Cend初始化
fori=2tol-1do
for Ccand∈A do
从Π中重新得到:
w1=Pr(T[i]=Ccand|T[i]...T[i-1])和
w2=Pr(T[l]=Cend|T[i]...T[i-1]Ccand)
将Ccand的权重设置为w1·w2
end
来自A的样本Cchosen,其概率与上面计算的去权重成正比
设置Tsyn[i]=Cchosen
end
返回Tsyn
首先,通过根据形成分布进行采样来确定合成轨迹的起点和终点,其次,从中的适当路径长度分布L中取样的长度,第三,将初始化,并将第一个位置作为形成的起始单元格,最后一个位置作为形成的目的单元格,第四,给定的两个端点,在移动性模型上采用随机游走找到中间位置,当考虑网络A的单元格作为候选,确定的第i个位置时,将为每个候选对象分配一个权重,该权重由表示为和的两个子权重组成,进行回溯,并找到下一个位置是的概率,就像马尔科夫假设的应用一样,同时,进行前向查找,并找到当前位置是时,而最终位置为的概率,这是一个-步的传输概率,是使用1步传输概率的组合计算出来的为了提高效率,在学习之后预先计算了多步转换概率,因此对于不同的不重复相同的计算;
上面的伪代码为定义确定起点和终点之间的单次行程轨迹,其中,每个用户的中的GPS记录对应于短期旅行,例如Uber或出租车,但是,如果是长时间(例如几天)收集的,则用户的记录可能包含多次行程记录,在这种情况下,每个用户可以多次运行合成算法,并且下一个轨迹的起始位置等于上一个轨迹的最后已知位置,接着将这些轨迹连接在一起,以形成具有所需行程次数的用户最终GPS记录。
具体的,步骤S6中,以马尔科夫链进行新轨迹的生成的具体步骤为:
使用Markov链进行移动性建模,r阶的马尔科夫链表示为轨迹中的下一个位置取决于先前r阶的位置,而不是先前所有的位置,基于网络的离散化建立离散状态的马尔科夫链,将自适应网格中的每个单元格看做马尔科夫链中的一个状态,假设每个轨迹表示为一个按时间顺序排列的单元格序列,并由T[j]表示轨迹T中的第j条,写出T到具有下一个单元格的转移概率,观察其先前的n个位置:
Pr(T[n+1]=Cnext|T[1]...T[n])
=Pr(T[n+1]=Cnext|T[n-r+1]T[n-r+2]...T[n])
trajectory-specific流动模型,每个概率Π(T),T[n-r+1]T[n-r+2]...T[n]是trajectory-specific模型捕获单个用户的移动性模型,以Π(Dreal)表示;
归结为含T[n-r+1]T[n-r+2]...T[n]Cnext的序列与T[n-r+1]T[n-r+2]...T[n]的序列之比,特定轨迹的移动性模型Π(T)是每个概率Pr(T[n+1]|T[1]...T[n])的集合,捕获了Dreal中单个用户的移动性,接着通过对彼此的各个移动性模型求平均,来找到整个Dreal的聚合移动性模型;
类似于网格构建过程中的噪声添加模型Π(Dreal)也受到拉普拉斯噪声的扰动,以满足差分隐私,将噪声添加到马尔可夫概率中,使得马尔可夫概率以序列计数的比来计算,并认为敏感度等于1,所需的噪声数量有限,因此,Π(Dreal)可以保持对噪声的鲁棒性。
具体的,步骤S7中,对抗网络的具体步骤为:
S71:对抗网络建模
总体思想是,它允许训练生成模型G,其目的是欺骗区分鉴别器D,该鉴别器D被训练为区分高仿真轨迹数据和真实轨迹数据,通过这种方法,生成器可以学习创建和真实轨迹数据相似的结果,因此很难用D进行分类;
在深度生成网络G,其核心是B残差块,使用两个具有3×3小内核和64个特征轨迹数据的卷积层,然后使用归一化层和ParametricReLU作为激活函数,通过两个训练好了的子像素卷积层来提高输入图像的仿真率,为了从生成的SR轨迹样本中区分出真实的HR轨迹数据,训练了一个判别网络,使用LeakyReLU激活(α=0.2),并避免整个网络的最大池化问题,它包含8个卷积层,其卷积核的数量增加了3×3,与VGG网络一样,从64个核增加到512个核,增加了两倍,每当特征数量增加一倍时,将使用卷积来降低图像仿真率,通过生成的512个特征图,与两个密集层和一个最终的sigmoid激活函数,来获得样本分类的概率;
S72:感知损失函数
其中,第一项为内容损失,第二项为对抗损失,一起组成感知损失基于VGG的内容损失;
S73:内容丢失
按轨迹数据计算的的MSE损失计算如下:
根据Simonyan和Zisserman中描述的与训练的19层VGG网络的ReLU激活层来定义VGG损失,用φi,j,j表示通过第j个卷积(激活后),在第i个最大池化层之前的特征图,然后将VGG损失定义为,重构轨迹数据的特征表示与参考轨迹数据IHR之间的欧氏距离:
其中,Wi,j和Hi,j描述了VGG网络中各特征轨迹数据的维数;
S74:对抗损失
本发明的工作原理及使用流程:S1:基于差分隐私机制的位置数据隐私保护
S11:差分隐私
存在两个相邻数据集D、D′和算法K,K(D)表示算法K在数据集D上的输出集合,O是算法K所有输出值的集合,若算法K在数据集D和D′上任意输出结果为满足下面不等式(1):
Pr[K(D)∈O]≤eε×Pr[K(D′)∈O]
则算法K满足ε差分隐私,ε称为差分隐私预算,ε的取值决定了保护效果,ε取值的大小与与保护效果成正比,与数据失真程度成反比,差分隐私以其严格的数学定义为隐私的评价提供了理论依据;
差分隐私实现机制包括:指数机制、拉普拉斯机制和高斯机制,其中,指数机制一般应用于非指数类数据,拉普拉斯机制和高斯机制适用于数值型数据的隐私保护;
S12:不确定图
给定图G=(V,E),G顶点上的不确定图是G′=(V,P),其中P:Vp→[0,1]是将概率分配给无序顶点对的函数,不确定图G′具有原始图G相同的顶点V,对于确定性图,我们可以假定所有边的概率等于1;
S13:邻近图
S14:敏感度
给定一个函数f:G→G″,其中,G、G″具有相同的顶点集合,函数f的全局敏感度为:
其中,G1、G2是邻近图,G″为经过随机算法后的输出图,f是查询函数,表示对于G1、G2中的边ei,查询边ei是否存在于G1和G2中;
S2:建立密度感知网络
S21:密度感知网络的建立
使用具有密度自适应单元格粒度的网络,对于低密度区域,将放置较大的cell,对于高密度区域,将区域划分为更细粒度的较小单元,首先,放置一个N×N均匀的单元格层,这样顶层一共有N2个cell,用C1,C2,...,CN来表示,将轨迹用T来表示,路径总和T所经过的cell的数目为|T|,并统计每一个轨迹所占用的单元格下标,以及计算在每一个单元格Ci中,轨迹T所占用的长度,并将其标准化处理,即该单元格中标准化之后的访问次数:
其中,g是标准化之后的值,将g写为集合的形式:
ΔW=1,只需在每个g(Dreal,Ci)中添加Lap(1/ε1)即可获得加噪之后的并且细分Ci,使得每个Ci由g(Dreal,Ci)进一步分为Mi×Mi的cell,Mi,即每个单元格划分为的小单元格的数目,其值以分段函数的形式来定义:
S22:双层网格行程的优化
网格A离散化为Ω(Dreal),以起始单元格Cstart和目标单元格Cend来表示一次行动的路线,如下所示:Cstart→Cend,令h(Cstart→Cend)为计算数据库Dreal中旅行次数Cstart→Cend的函数,并且h表示差分隐私,X为行程分布A×A的整个范围内的随机变量,则行程分布R的计算方式如下:
其中,R是一个概率质量函数,其项的总和为1,在两层网格的情况下,一个GPS位置由顶层和底层单元同时索引,可以使用约束推理,以提高准确性和一致性,采用Folloejng线性普通最小二乘(OLS)方法,用Ci表示网格最顶层的单元格,用Ci,j表示网格最底层的单元格,其中在获得顶层行程数时,使用预算θε3,在获底层的行程数时,使用(1-θ)ε3,如果没有隐私干扰,使用无噪声计数h代替即h(Ci→Cj),h(Ci→Cj)=∑k∑lh(Ci,k→Cj,l),在随机干扰每个h后,此值可能不成立,为了重新建立一致性,并最大程度地减少噪声影响,使满足给定的噪声值,可以获得优化的行程路径,记为表示为:
在优化底层计数时,上面计算出的优化顶层计数中的差异平均分布在底层单元中:
S3:定义点的重要性程度参数
S31:定义节点的聚类系数和访问能力参数
S311:求节点的聚类系数
意为相邻节点的度的总和除以相邻节点数,Mn为相邻节点,N为相邻节点数;
S312:求节点的综合访问能力值
Step1:定义节点访问能力值
以中心节点为研究对象,将其抽象为星型拓扑图,以中心节点的计算资源乘以其相邻节点间距离值的总和,来计算中心节点的综合访问频率大小值,
其中,C(n)为该中心节点的访问频率,B(n,m)为n,m两点间的路径长度,因一条链路为两端两个节点共用,因此计算路径长度值时需除以2;
Step2:标准化
其中,以中心节点的访问能力值分别依次除以相邻节点访问能力值,将结果存储在矩阵Res中,即Res=(Res(1),Res(2),...,Res(N))T;
Step3:定义节点综合访问能力值
bn以马尔科夫随机游走模型计算,同时考虑该点与其邻居节点,以该点为初始状态,以适当的随机游动累积报酬的形式,将邻域内的资源聚合起来计算,采用递归的思想求中心节点的综合访问能力值,如下:
其中,γ为相邻节点的相对权重,P为转移概率矩阵,P为一个|N|×|N|矩阵,定义如下:
Vγ-(1-γ)Re s+γPVγ
其中Re s=(Re s(1),Re s(2),...Re s(|N|))T,并且Vγ=(Vγ(1),Vγ(2),...,Vγ(|N|))T,递归等式可以看做是折现因子为γ的折现奖励的Bellman方程,节点集N上转移概率矩阵为P的马尔科夫链,Re w=(Re w(1),Re w(2),...Re w(|N|)),并且Re w(n)=(1-γ)Re s(n),n∈N,节点n的排名矩阵Vγ(n),是转移概率为P的马尔科夫链的预期折扣累积奖励,即
其中n0,n1,n2,...表示采样路径,
Vγ为公式Vγ-(1-γ)Re s+γPVγ的唯一解,由于P是随机的,所以(1-γP),0≤γ≤1是可逆的,因此可以得出
Vγ=(1-γP)-1(1-γ)Re s
根据以上定义,节点的排名Vγ(n)越高,该节点及其附近的访问能力值越高,折扣因子γ是对邻域大小的度量,在确定节点度量时要加以考虑,γ=0时仅考虑本节点资源,而随着γ的增加,在矩阵中靠近节点的拓扑图部分占比越来越大;
Step4:归一化
为消除节点聚集系数与节点访问能力值的量纲,分别对其进行归一化处理,如下:
对聚集系数归一化处理:
对节点资源承载能力归一化处理:
S313:求节点能力参数
考虑节点在拓扑结构图中的聚集程度,以及访问能力的大小,将节点能力值量化如下:
θn=an′+αbn′
其中,an′为归一化后的节点聚类系数,bn′为归一化后的节点访问能力,α为访问能力能力与节点聚类程度对节点能力参数的影响比重;
S32:正态双卵模型为节点分类
采用项目反应理论中的正态双卵模型判定节重要性程度为强的概率,为节点重要性程度的强弱进行分类,以便为不同类型的节点选取不同的备份策略:
其中,Q(θn)为对应节点被判定重要性程度为强的概率,Pi(θ)是能力为强节点对应的判断概率,qi(θ)是能力为弱节点的判断概率,表示为正态双卵曲线的陡峭程度,以节点聚类系数的均值计算,为偏置因子,以节点的访问能力的均值表示,θn为节点n的能力参数,为便于该模型中计算,使θn分布在[-2,2],因此对其进行数值范围调整如下:
S4:处理重要性程度高的点
S41:多边形质心模型
比例集合B,根据距离选择相关的和最大尺寸的点来构建多边形,例如,对一个多边形,该算法从B的坐标为P(xi,yi)的i中选取N个点作为顶点,其中,i=1,2,3,...,N,其中N个点之一位于的原始轨迹,其他点在该点附近;
根据形成的多边形的定点计算多边形质心,公式如下:
其中,Pi(xk,yk)是第k个顶点的坐标,在第i_th个多边形中,Pi是第i_th个多边形的顶点数,而ji(x,y)是第i_th个多边形质心的坐标,
多边形质心形成为集合J,其中ji(x,y)∈J;
S42:根据拉普拉斯机制添加噪音
向J中添加拉普拉斯噪声
适用修改后的多边形中心体G替换相应的保护节点f∈A,并且然后发布新的轨迹数据I′,
S43:建立位置搜索树
首先建立位置搜索树(LQ-Trie)上对数据假造,最后后置处理加噪的数据返回位置搜索树,发布噪声后的位置搜索树(LQ-Trie);
S44:基于指数机制遍历与提取位置搜索树
其中,Pr(ai)表示被选取的概率,ai·weight表示ai模式的权重,基于指数机制的选择算法步骤描述如下:
Step1:输入频繁模式记录集合A,给A的N个模式记录ai打分,设置为:
Mark(A,ai)=Q(ai)
其中,Q(ai)表示ai模式的访问频率;
Step2:计算每个模式记录的权重:
并按降序排列;
上述指数机制完成选择,而指数机制的关键是打分函数的设置,设置打分函数为Mark(A,ai)=Q(ai)(设Q(ai)为访问频率)每个模式记录的权重为:
其中,ε1表示选取k个模式所分配的隐私预算,Mark(A,ai)表示ai的打分值,ΔMark计算如下式所示:
ΔMark表示N个数据记录模式中的访问频率之差的最大值,
具体的,步骤S43中,LQ-Trie=DPK的算法步骤为:
Step1:输入数据集D和差分隐私保护参数ε1,ε2,k,min_count,ε=ε1+ε2;
Step4:使用指数机制从集合A中选择访问频率项B,其中每个选择的数据记录都满足以下条件:
其中,B的大小为k,ai∈A为访问频率项记录,εi为相应的的隐私保护等级,Rank(A,ai)为ai的评分值,ΔRank为评分函数灵敏度;
S5:拟合轨迹长度的分布
将观察到的行程长度视为直方图,考虑多个不同形状的已知分布,如均匀分布、指数分布和泊松分布,作为捕获直方图的候选分布,候选分布有一个共同的特点,它们的参数直接关系到汇总统计量,而汇总统计量可以从中得到,例如,泊松分布有一个值为平均长度的参数,而指数分布的参数与中位数长度med有这样的关系;可以使用拉普拉斯和指数机制私下获取平均值和中位数等统计信息,将其分解成一个噪声总和除以一个噪声总数的形式,来获得一个私有的均值,其中拉普拉斯机制用于注入噪声;私有中位数可以使用Cormode等人对指数的修改来获取;这个机制返回的是有噪声的中位数x,而不是实际中的中位数,这里q意为,当x接近实际的中位数,那么它的rank将与实际中位数的rank相近,因此,每个候选人的分数都会受到rank偏离的程度的负影响;
在构建了上述多个候选分布之后,选择一个作为最合适的分布,将其存储在AdaTrace的内存中,并删除其余的分布,使用拟合优度检验来确定哪个分布是最佳拟合,使用检验统计量的值,由于其差分隐私应用;
轨迹综合算法
AdaTrace的综合算法结合了四个功能:密度感知网格A,移动性模型Π
(Dreal),行程分布R和每次旅行的分布的长度集合L,它的输出基于合成轨迹;
算法:Trajectorysynthesisalgorithm
Input:网格A,形成分布R,可移动模型Π,长度分布L
Output:候选合成轨迹Tsyn
从R的pmf里随机选取一个样本Cstart→Cend
对于路线Cstart→Cend,从L中得到拟合的概率分布PD
从PD中挑选一个随机样本
将Tsyn使用Tsyn[1]=Cstart和Tsyn[l]=Cend初始化
fori=2tol-1do
for Ccand∈A do
从Π中重新得到:
w1=Pr(T[i]=Ccand|T[i]...T[i-1])和
w2=Pr(T[l]=Cend|T[i]...T[i-1]Ccand)
将Ccand的权重设置为w1·w2
end
来自A的样本Cchosen,其概率与上面计算的去权重成正比
设置Tsyn[i]=Cchosen
end
返回Tsyn
首先,通过根据形成分布进行采样来确定合成轨迹的起点和终点,其次,从中的适当路径长度分布L中取样的长度,第三,将初始化,并将第一个位置作为形成的起始单元格,最后一个位置作为形成的目的单元格,第四,给定的两个端点,在移动性模型上采用随机游走找到中间位置,当考虑网络A的单元格作为候选,确定的第i个位置时,将为每个候选对象分配一个权重,该权重由表示为和的两个子权重组成,进行回溯,并找到下一个位置是的概率,就像马尔科夫假设的应用一样,同时,进行前向查找,并找到当前位置是时,而最终位置为的概率,这是一个-步的传输概率,是使用1步传输概率的组合计算出来的为了提高效率,在学习之后预先计算了多步转换概率,因此对于不同的不重复相同的计算;
上面的伪代码为定义确定起点和终点之间的单次行程轨迹,其中,每个用户的中的GPS记录对应于短期旅行,例如Uber或出租车,但是,如果是长时间(例如几天)收集的,则用户的记录可能包含多次行程记录,在这种情况下,每个用户可以多次运行合成算法,并且下一个轨迹的起始位置等于上一个轨迹的最后已知位置,接着将这些轨迹连接在一起,以形成具有所需行程次数的用户最终GPS记录;
S6:以马尔科夫链进行新轨迹的生成
使用Markov链进行移动性建模,r阶的马尔科夫链表示为轨迹中的下一个位置取决于先前r阶的位置,而不是先前所有的位置,基于网络的离散化建立离散状态的马尔科夫链,将自适应网格中的每个单元格看做马尔科夫链中的一个状态,假设每个轨迹表示为一个按时间顺序排列的单元格序列,并由T[j]表示轨迹T中的第j条,写出T到具有下一个单元格的转移概率,观察其先前的n个位置:
trajectory-specific流动模型,每个概率,是trajectory-specific模型捕获单个用户的移动性模型,以表示;
归结为含的序列与的序列之比,特定轨迹的移动性模型是每个概率的集合,捕获了中单个用户的移动性,接着通过对彼此的各个移动性模型求平均,来找到整个的聚合移动性模型;
类似于网格构建过程中的噪声添加模型也受到拉普拉斯噪声的扰动,以满足差分隐私,将噪声添加到马尔可夫概率中,使得马尔可夫概率以序列计数的比来计算,并认为敏感度等于1,所需的噪声数量有限,因此,可以保持对噪声的鲁棒性;
S7:对抗网络
S71:对抗网络建模
总体思想是,它允许训练生成模型G,其目的是欺骗区分鉴别器D,该鉴别器D被训练为区分高仿真轨迹数据和真实轨迹数据,通过这种方法,生成器可以学习创建和真实轨迹数据相似的结果,因此很难用D进行分类;
在深度生成网络G,其核心是B残差块,使用两个具有3×3小内核和64个特征轨迹数据的卷积层,然后使用归一化层和ParametricReLU作为激活函数,通过两个训练好了的子像素卷积层来提高输入图像的仿真率,为了从生成的SR轨迹样本中区分出真实的HR轨迹数据,训练了一个判别网络,使用LeakyReLU激活(α=0.2),并避免整个网络的最大池化问题,它包含8个卷积层,其卷积核的数量增加了3×3,与VGG网络一样,从64个核增加到512个核,增加了两倍,每当特征数量增加一倍时,将使用卷积来降低图像仿真率,通过生成的512个特征图,与两个密集层和一个最终的sigmoid激活函数,来获得样本分类的概率;
S72:感知损失函数
其中,第一项为内容损失,第二项为对抗损失,一起组成感知损失基于VGG的内容损失;
S73:内容丢失
按轨迹数据计算的的MSE损失计算如下:
根据Simonyan和Zisserman中描述的与训练的19层VGG网络的ReLU激活层来定义VGG损失,用φi,j,j表示通过第j个卷积(激活后),在第i个最大池化层之前的特征图,然后将VGG损失定义为,重构轨迹数据的特征表示与参考轨迹数据IHR之间的欧氏距离:
其中,Wi,j和Hi,j描述了VGG网络中各特征轨迹数据的维数;
S74:对抗损失
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (9)
1.一种基于对抗网络的位置差分隐私保护方法,其特征在于,包括以下步骤:
S1:基于差分隐私机制的位置数据隐私保护;
S2:建立密度感知网络;
S3:定义点的重要性程度参数;
S4:处理重要性程度高的点;
S5:拟合轨迹长度的分布;
S6:以马尔科夫链进行新轨迹的生成;
S7:对抗网络。
2.根据权利要求1所述的一种基于对抗网络的位置差分隐私保护方法,其特征在于:所述步骤S1中,基于差分隐私机制的位置数据隐私保护的具体步骤为:
S11:差分隐私
存在两个相邻数据集D、D′和算法K,K(D)表示算法K在数据集D上的输出集合,O是算法K所有输出值的集合,若算法K在数据集D和D′上任意输出结果为满足下面不等式(1):
Pr[K(D)∈O]≤eε×Pr[K(D′)∈O]
则算法K满足ε差分隐私,ε称为差分隐私预算,ε的取值决定了保护效果,ε取值的大小与与保护效果成正比,与数据失真程度成反比,差分隐私以其严格的数学定义为隐私的评价提供了理论依据;
差分隐私实现机制包括:指数机制、拉普拉斯机制和高斯机制,其中,指数机制一般应用于非指数类数据,拉普拉斯机制和高斯机制适用于数值型数据的隐私保护;
S12:不确定图
给定图G=(V,E),G顶点上的不确定图是G′=(V,P),其中P:Vp→[0,1]是将概率分配给无序顶点对的函数,不确定图G′具有原始图G相同的顶点V,对于确定性图,我们可以假定所有边的概率等于1;
S13:邻近图
S14:敏感度
给定一个函数f:G→G″,其中,G、G″具有相同的顶点集合,函数f的全局敏感度为:
其中,G1、G2是邻近图,G″为经过随机算法后的输出图,f是查询函数,表示对于G1、G2中的边ei,查询边ei是否存在于G1和G2中。
3.根据权利要求1所述的一种基于对抗网络的位置差分隐私保护方法,其特征在于:所述步骤S2中,建立密度感知网络的具体步骤为:
S21:密度感知网络的建立
使用具有密度自适应单元格粒度的网络,对于低密度区域,将放置较大的cell,对于高密度区域,将区域划分为更细粒度的较小单元,首先,放置一个N×N均匀的单元格层,这样顶层一共有N2个cell,用C1,C2,...,CN来表示,将轨迹用T来表示,路径总和T所经过的cell的数目为|T|,并统计每一个轨迹所占用的单元格下标,以及计算在每一个单元格Ci中,轨迹T所占用的长度,并将其标准化处理,即该单元格中标准化之后的访问次数:
其中,g是标准化之后的值,将g写为集合的形式:
ΔW=1,只需在每个g(Dreal,Ci)中添加Lap(1/ε1)即可获得加噪之后的并且细分Ci,使得每个Ci由g(Dreal,Ci)进一步分为Mi×Mi的cell,Mi,即每个单元格划分为的小单元格的数目,其值以分段函数的形式来定义:
S22:双层网格行程的优化
网格A离散化为Ω(Dreal),以起始单元格Cstart和目标单元格Cend来表示一次行动的路线,如下所示:Cstart→Cend,令h(Cstart→Cend)为计算数据库Dreal中旅行次数Cstart→Cend的函数,并且h表示差分隐私,X为行程分布A×A的整个范围内的随机变量,则行程分布R的计算方式如下:
其中,R是一个概率质量函数,其项的总和为1,在两层网格的情况下,一个GPS位置由顶层和底层单元同时索引,可以使用约束推理,以提高准确性和一致性,采用Folloejng线性普通最小二乘(OLS)方法,用Ci表示网格最顶层的单元格,用Ci,j表示网格最底层的单元格,其中在获得顶层行程数时,使用预算θε3,在获底层的行程数时,使用(1-θ)ε3,如果没有隐私干扰,使用无噪声计数h代替即h(Ci→Cj),h(Ci→Cj)=∑k∑lh(Ci,k→Cj,l),在随机干扰每个h后,此值可能不成立,为了重新建立一致性,并最大程度地减少噪声影响,使满足给定的噪声值,可以获得优化的行程路径,记为表示为:
在优化底层计数时,上面计算出的优化顶层计数中的差异平均分布在底层单元中:
4.根据权利要求1所述的一种基于对抗网络的位置差分隐私保护方法,其特征在于:所述步骤S3中,定义点的重要性程度参数的具体步骤为:
S31:定义节点的聚类系数和访问能力参数
S311:求节点的聚类系数
意为相邻节点的度的总和除以相邻节点数,Mn为相邻节点,N为相邻节点数;
S312:求节点的综合访问能力值
Step1:定义节点访问能力值
以中心节点为研究对象,将其抽象为星型拓扑图,以中心节点的计算资源乘以其相邻节点间距离值的总和,来计算中心节点的综合访问频率大小值,
其中,C(n)为该中心节点的访问频率,B(n,m)为n,m两点间的路径长度,因一条链路为两端两个节点共用,因此计算路径长度值时需除以2;
Step2:标准化
其中,以中心节点的访问能力值分别依次除以相邻节点访问能力值,将结果存储在矩阵Res中,即Res=(Res(1),Res(2),...,Res(N))T;
Step3:定义节点综合访问能力值
bn以马尔科夫随机游走模型计算,同时考虑该点与其邻居节点,以该点为初始状态,以适当的随机游动累积报酬的形式,将邻域内的资源聚合起来计算,采用递归的思想求中心节点的综合访问能力值,如下:
其中,γ为相邻节点的相对权重,P为转移概率矩阵,P为一个|N|×|N|矩阵,定义如下:
其中Res=(Res(1),Res(2),...Res(|N|))T,并且Vγ=(Vγ(1),Vγ(2),...,Vγ(|N|))T,递归等式可以看做是折现因子为γ的折现奖励的Bellman方程,节点集N上转移概率矩阵为P的马尔科夫链,Rew=(Rew(1),Rew(2),...Rew(|N|)),并且Rew(n)=(1-γ)Res(n),n∈N,节点n的排名矩阵Vγ(n),是转移概率为P的马尔科夫链的预期折扣累积奖励,即
其中n0,n1,n2,...表示采样路径,
Vγ为公式Vγ-(1-γ)Res+γPVγ的唯一解,由于P是随机的,所以(1-γP),0≤γ≤1是可逆的,因此可以得出
Vγ=(1-γP)-1(1-γ)Res
根据以上定义,节点的排名Vγ(n)越高,该节点及其附近的访问能力值越高,折扣因子γ是对邻域大小的度量,在确定节点度量时要加以考虑,γ=0时仅考虑本节点资源,而随着γ的增加,在矩阵中靠近节点的拓扑图部分占比越来越大;
Step4:归一化
为消除节点聚集系数与节点访问能力值的量纲,分别对其进行归一化处理,如下:
对聚集系数归一化处理:
对节点资源承载能力归一化处理:
S313:求节点能力参数
考虑节点在拓扑结构图中的聚集程度,以及访问能力的大小,将节点能力值量化如下:
θn=an′+αbn′
其中,an′为归一化后的节点聚类系数,bn′为归一化后的节点访问能力,α为访问能力能力与节点聚类程度对节点能力参数的影响比重;
S32:正态双卵模型为节点分类
采用项目反应理论中的正态双卵模型判定节重要性程度为强的概率,为节点重要性程度的强弱进行分类,以便为不同类型的节点选取不同的备份策略:
其中,Q(θn)为对应节点被判定重要性程度为强的概率,Pi(θ)是能力为强节点对应的判断概率,qi(θ)是能力为弱节点的判断概率,表示为正态双卵曲线的陡峭程度,以节点聚类系数的均值计算,为偏置因子,以节点的访问能力的均值表示,θn为节点n的能力参数,为便于该模型中计算,使θn分布在[-2,2],因此对其进行数值范围调整如下:
5.根据权利要求1所述的一种基于对抗网络的位置差分隐私保护方法,其特征在于:所述步骤S4中,处理重要性程度高的点的具体步骤为:
S41:多边形质心模型
比例集合B,根据距离选择相关的和最大尺寸的点来构建多边形,例如,对一个多边形,该算法从B的坐标为P(xi,yi)的i中选取N个点作为顶点,其中,i=1,2,3,...,N,其中N个点之一位于的原始轨迹,其他点在该点附近;
根据形成的多边形的定点计算多边形质心,公式如下:
其中,Pi(xk,yk)是第k个顶点的坐标,在第i_th个多边形中,Pi是第i_th个多边形的顶点数,而ji(x,y)是第i_th个多边形质心的坐标,
多边形质心形成为集合J,其中ji(x,y)∈J;
S42:根据拉普拉斯机制添加噪音
向J中添加拉普拉斯噪声
适用修改后的多边形中心体G替换相应的保护节点f∈A,并且然后发布新的轨迹数据I′,
S43:建立位置搜索树
首先建立位置搜索树(LQ-Trie)上对数据假造,最后后置处理加噪的数据返回位置搜索树,发布噪声后的位置搜索树(LQ-Trie);
S44:基于指数机制遍历与提取位置搜索树
其中,Pr(ai)表示被选取的概率,ai·weight表示ai模式的权重,基于指数机制的选择算法步骤描述如下:
Step1:输入频繁模式记录集合A,给A的N个模式记录ai打分,设置为:
Mark(A,ai)=Q(ai)
其中,Q(ai)表示ai模式的访问频率;
Step2:计算每个模式记录的权重:
并按降序排列;
上述指数机制完成选择,而指数机制的关键是打分函数的设置,设置打分函数为Mark(A,ai)=Q(ai)(设Q(ai)为访问频率),每个模式记录的权重为:
其中,ε1表示选取k个模式所分配的隐私预算,Mark(A,ai)表示ai的打分值,ΔMark计算如下式所示:
ΔMark表示N个数据记录模式中的访问频率之差的最大值,
6.根据权利要求5所述的一种基于对抗网络的位置差分隐私保护方法,其特征在于:所述步骤S43中,LQ-Trie=DPK的算法步骤为:
Step1:输入数据集D和差分隐私保护参数ε1,ε2,k,min_count,ε=ε1+ε2;
Step4:使用指数机制从集合A中选择访问频率项B,其中每个选择的数据记录都满足以下条件:
其中,B的大小为k,ai∈A为访问频率项记录,εi为相应的的隐私保护等级,Rank(A,ai)为ai的评分值,ΔRank为评分函数灵敏度;
7.根据权利要求1所述的一种基于对抗网络的位置差分隐私保护方法,其特征在于:所述步骤S5中,拟合轨迹长度的分布的具体步骤为:
将观察到的行程长度视为直方图,考虑多个不同形状的已知分布,如均匀分布、指数分布和泊松分布,作为捕获直方图的候选分布,候选分布有一个共同的特点,它们的参数直接关系到汇总统计量,而汇总统计量可以从中得到,例如,泊松分布有一个值为平均长度的参数,而指数分布的参数与中位数长度med有这样的关系;可以使用拉普拉斯和指数机制私下获取平均值和中位数等统计信息,将其分解成一个噪声总和除以一个噪声总数的形式,来获得一个私有的均值,其中拉普拉斯机制用于注入噪声;私有中位数可以使用Cormode等人对指数的修改来获取;这个机制返回的是有噪声的中位数x,而不是实际中的中位数,这里q意为,当x接近实际的中位数,那么它的rank将与实际中位数的rank相近,因此,每个候选人的分数都会受到rank偏离的程度的负影响;
在构建了上述多个候选分布之后,选择一个作为最合适的分布,将其存储在AdaTrace的内存中,并删除其余的分布,使用拟合优度检验来确定哪个分布是最佳拟合,使用检验统计量的值,由于其差分隐私应用;
轨迹综合算法
AdaTrace的综合算法结合了四个功能:密度感知网格A,移动性模型Π(Dreal),行程分布R和每次旅行的分布的长度集合L,它的输出基于合成轨迹;
算法:Trajectorysynthesisalgorithm
Input:网格A,形成分布R,可移动模型Π,长度分布L
Output:候选合成轨迹Tsyn
从R的pmf里随机选取一个样本Cstart→Cend
对于路线Cstart→Cend,从L中得到拟合的概率分布PD
从PD中挑选一个随机样本
将Tsyn使用Tsyn[1]=Cstart和Tsyn[l]=Cend初始化
fori=2tol-1do
forCcand∈Ado
从Π中重新得到:
w1=Pr(T[i]=Ccand|T[i]...T[i-1])和
w2=Pr(T[l]=Cend|T[i]...T[i-1]Ccand)
将Ccand的权重设置为w1·w2
end
来自A的样本Cchosen,其概率与上面计算的去权重成正比
设置Tsyn[i]=Cchosen
end
返回Tsyn
首先,通过根据形成分布进行采样来确定合成轨迹的起点和终点,其次,从中的适当路径长度分布L中取样的长度,第三,将初始化,并将第一个位置作为形成的起始单元格,最后一个位置作为形成的目的单元格,第四,给定的两个端点,在移动性模型上采用随机游走找到中间位置,当考虑网络A的单元格作为候选,确定的第i个位置时,将为每个候选对象分配一个权重,该权重由表示为和的两个子权重组成,进行回溯,并找到下一个位置是的概率,就像马尔科夫假设的应用一样,同时,进行前向查找,并找到当前位置是时,而最终位置为的概率,这是一个-步的传输概率,是使用1步传输概率的组合计算出来的为了提高效率,在学习之后预先计算了多步转换概率,因此对于不同的不重复相同的计算;
上面的伪代码为定义确定起点和终点之间的单次行程轨迹,其中,每个用户的中的GPS记录对应于短期旅行,例如Uber或出租车,但是,如果是长时间(例如几天)收集的,则用户的记录可能包含多次行程记录,在这种情况下,每个用户可以多次运行合成算法,并且下一个轨迹的起始位置等于上一个轨迹的最后已知位置,接着将这些轨迹连接在一起,以形成具有所需行程次数的用户最终GPS记录。
8.根据权利要求1所述的一种基于对抗网络的位置差分隐私保护方法,其特征在于:所述步骤S6中,以马尔科夫链进行新轨迹的生成的具体步骤为:
使用Markov链进行移动性建模,r阶的马尔科夫链表示为轨迹中的下一个位置取决于先前r阶的位置,而不是先前所有的位置,基于网络的离散化建立离散状态的马尔科夫链,将自适应网格中的每个单元格看做马尔科夫链中的一个状态,假设每个轨迹表示为一个按时间顺序排列的单元格序列,并由T[j]表示轨迹T中的第j条,写出T到具有下一个单元格的转移概率,观察其先前的n个位置:
Pr(T[n+1]=Cnext|T[1]...T[n])
=Pr(T[n+1]=Cnext|T[n-r+1]T[n-r+2]...T[n])
trajectory-specific流动模型,每个概率Π(T),T[n-r+1]T[n-r+2]...T[n]是trajectory-specific模型捕获单个用户的移动性模型,以Π(Dreal)表示;
归结为含T[n-r+1]T[n-r+2]...T[n]Cnext的序列与T[n-r+1]T[n-r+2]...T[n]的序列之比,特定轨迹的移动性模型Π(T)是每个概率Pr(T[n+1]|T[1]...T[n])的集合,捕获了Dreal中单个用户的移动性,接着通过对彼此的各个移动性模型求平均,来找到整个Dreal的聚合移动性模型;
类似于网格构建过程中的噪声添加模型Π(Dreal)也受到拉普拉斯噪声的扰动,以满足差分隐私,将噪声添加到马尔可夫概率中,使得马尔可夫概率以序列计数的比来计算,并认为敏感度等于1,所需的噪声数量有限,因此,Π(Dreal)可以保持对噪声的鲁棒性。
9.根据权利要求1所述的一种基于对抗网络的位置差分隐私保护方法,其特征在于:所述步骤S7中,对抗网络的具体步骤为:
S71:对抗网络建模
总体思想是,它允许训练生成模型G,其目的是欺骗区分鉴别器D,该鉴别器D被训练为区分高仿真轨迹数据和真实轨迹数据,通过这种方法,生成器可以学习创建和真实轨迹数据相似的结果,因此很难用D进行分类;
在深度生成网络G,其核心是B残差块,使用两个具有3×3小内核和64个特征轨迹数据的卷积层,然后使用归一化层和ParametricReLU作为激活函数,通过两个训练好了的子像素卷积层来提高输入图像的仿真率,为了从生成的SR轨迹样本中区分出真实的HR轨迹数据,训练了一个判别网络,使用LeakyReLU激活(α=0.2),并避免整个网络的最大池化问题,它包含8个卷积层,其卷积核的数量增加了3×3,与VGG网络一样,从64个核增加到512个核,增加了两倍,每当特征数量增加一倍时,将使用卷积来降低图像仿真率,通过生成的512个特征图,与两个密集层和一个最终的sigmoid激活函数,来获得样本分类的概率;
S72:感知损失函数
其中,第一项为内容损失,第二项为对抗损失,一起组成感知损失基于VGG的内容损失;
S73:内容丢失
按轨迹数据计算的的MSE损失计算如下:
根据Simonyan和Zisserman中描述的与训练的19层VGG网络的ReLU激活层来定义VGG损失,用φi,j,j表示通过第j个卷积(激活后),在第i个最大池化层之前的特征图,然后将VGG损失定义为,重构轨迹数据的特征表示与参考轨迹数据IHR之间的欧氏距离:
其中,Wi,j和Hi,j描述了VGG网络中各特征轨迹数据的维数;
S74:对抗损失
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010678689.9A CN112001415A (zh) | 2020-07-15 | 2020-07-15 | 一种基于对抗网络的位置差分隐私保护方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010678689.9A CN112001415A (zh) | 2020-07-15 | 2020-07-15 | 一种基于对抗网络的位置差分隐私保护方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112001415A true CN112001415A (zh) | 2020-11-27 |
Family
ID=73466625
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010678689.9A Pending CN112001415A (zh) | 2020-07-15 | 2020-07-15 | 一种基于对抗网络的位置差分隐私保护方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112001415A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112487992A (zh) * | 2020-12-02 | 2021-03-12 | 重庆邮电大学 | 一种基于流模型的人脸情绪图像的生成方法及设备 |
CN113254927A (zh) * | 2021-05-28 | 2021-08-13 | 浙江工业大学 | 一种基于网络防御的模型处理方法、装置及存储介质 |
CN113282961A (zh) * | 2021-07-22 | 2021-08-20 | 武汉中原电子信息有限公司 | 一种基于电网数据采集的数据脱敏方法及系统 |
CN114065287A (zh) * | 2021-11-18 | 2022-02-18 | 南京航空航天大学 | 一种抗预测攻击的轨迹差分隐私保护方法和系统 |
CN114091100A (zh) * | 2021-11-23 | 2022-02-25 | 北京邮电大学 | 一种满足本地差分隐私的轨迹数据收集方法及系统 |
CN115114381A (zh) * | 2022-06-22 | 2022-09-27 | 广州大学 | 一种面向本地化差分隐私的图统计分析方法 |
WO2022199274A1 (en) * | 2021-03-24 | 2022-09-29 | International Business Machines Corporation | Defending against adversarial queries in a data governance system |
CN116956349A (zh) * | 2023-07-29 | 2023-10-27 | 哈尔滨理工大学 | 一种基于时间依赖路网中的k近邻隐私保护查询方法 |
CN117892357A (zh) * | 2024-03-15 | 2024-04-16 | 大连优冠网络科技有限责任公司 | 基于差分隐私防护的能源大数据共享分发风险控制方法 |
CN117892357B (zh) * | 2024-03-15 | 2024-05-31 | 国网河南省电力公司经济技术研究院 | 基于差分隐私防护的能源大数据共享分发风险控制方法 |
-
2020
- 2020-07-15 CN CN202010678689.9A patent/CN112001415A/zh active Pending
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112487992B (zh) * | 2020-12-02 | 2022-07-22 | 重庆邮电大学 | 一种基于流模型的人脸情绪图像的生成方法及设备 |
CN112487992A (zh) * | 2020-12-02 | 2021-03-12 | 重庆邮电大学 | 一种基于流模型的人脸情绪图像的生成方法及设备 |
WO2022199274A1 (en) * | 2021-03-24 | 2022-09-29 | International Business Machines Corporation | Defending against adversarial queries in a data governance system |
CN113254927A (zh) * | 2021-05-28 | 2021-08-13 | 浙江工业大学 | 一种基于网络防御的模型处理方法、装置及存储介质 |
CN113254927B (zh) * | 2021-05-28 | 2022-05-17 | 浙江工业大学 | 一种基于网络防御的模型处理方法、装置及存储介质 |
CN113282961A (zh) * | 2021-07-22 | 2021-08-20 | 武汉中原电子信息有限公司 | 一种基于电网数据采集的数据脱敏方法及系统 |
CN114065287A (zh) * | 2021-11-18 | 2022-02-18 | 南京航空航天大学 | 一种抗预测攻击的轨迹差分隐私保护方法和系统 |
CN114065287B (zh) * | 2021-11-18 | 2024-05-07 | 南京航空航天大学 | 一种抗预测攻击的轨迹差分隐私保护方法和系统 |
CN114091100A (zh) * | 2021-11-23 | 2022-02-25 | 北京邮电大学 | 一种满足本地差分隐私的轨迹数据收集方法及系统 |
CN114091100B (zh) * | 2021-11-23 | 2024-05-03 | 北京邮电大学 | 一种满足本地差分隐私的轨迹数据收集方法及系统 |
CN115114381A (zh) * | 2022-06-22 | 2022-09-27 | 广州大学 | 一种面向本地化差分隐私的图统计分析方法 |
CN116956349A (zh) * | 2023-07-29 | 2023-10-27 | 哈尔滨理工大学 | 一种基于时间依赖路网中的k近邻隐私保护查询方法 |
CN116956349B (zh) * | 2023-07-29 | 2024-03-19 | 哈尔滨理工大学 | 一种基于时间依赖路网中的k近邻隐私保护查询方法 |
CN117892357A (zh) * | 2024-03-15 | 2024-04-16 | 大连优冠网络科技有限责任公司 | 基于差分隐私防护的能源大数据共享分发风险控制方法 |
CN117892357B (zh) * | 2024-03-15 | 2024-05-31 | 国网河南省电力公司经济技术研究院 | 基于差分隐私防护的能源大数据共享分发风险控制方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112001415A (zh) | 一种基于对抗网络的位置差分隐私保护方法 | |
Flaxman et al. | Scalable high-resolution forecasting of sparse spatiotemporal events with kernel methods: a winning solution to the NIJ “Real-Time Crime Forecasting Challenge” | |
Kollman et al. | Political parties and electoral landscapes | |
Ayvaz | Simultaneous determination of aquifer parameters and zone structures with fuzzy c-means clustering and meta-heuristic harmony search algorithm | |
CN106156941B (zh) | 一种用户信用评分优化方法和装置 | |
Zheng et al. | Radial basis function network configuration using mutual information and the orthogonal least squares algorithm | |
WO2022217839A1 (zh) | 一种基于深度时空相似性的空气质量预测方法 | |
Davis et al. | Grids versus graphs: Partitioning space for improved taxi demand-supply forecasts | |
Chang et al. | Applying a modified VIKOR method to classify land subdivisions according to watershed vulnerability | |
Barrera et al. | A review of particle swarm optimization methods used for multimodal optimization | |
CN111313957B (zh) | 基于分类多目标优化的混合卫星通信系统资源分配方法 | |
CN107092798A (zh) | 滑坡预测模型的稳定性评价方法及装置 | |
CN107563220A (zh) | 一种基于计算机的大数据分析控制系统及控制方法 | |
CN104834987A (zh) | 基于层次分析的量化决策方法及系统 | |
Levashenko et al. | Fuzzy classifier based on fuzzy decision tree | |
Ahani et al. | A feature weighting and selection method for improving the homogeneity of regions in regionalization of watersheds | |
Gopakumar et al. | Hydrologic data exploration and river flow forecasting of a humid tropical river basin using artificial neural networks | |
Li et al. | Dealing with missing data: Algorithms based on fuzzy set and rough set theories | |
Sadi et al. | Community detection using ant colony optimization techniques | |
Jafar et al. | Hybrid fuzzy data clustering algorithm using different distance metrics: a comparative study | |
Shu et al. | Link prediction based on 3D convolutional neural network | |
Rezaee et al. | GPS: A graph-based approach to portfolio selection | |
CN113010803B (zh) | 一种地理敏感动态社交环境下用户访问位置的预测方法 | |
Kiss et al. | Econometrics of Networks with Machine Learning | |
Deng et al. | Geographic Boosting Tree: Modeling Non-Stationary Spatial Data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20201127 |