CN112001415A - 一种基于对抗网络的位置差分隐私保护方法 - Google Patents

一种基于对抗网络的位置差分隐私保护方法 Download PDF

Info

Publication number
CN112001415A
CN112001415A CN202010678689.9A CN202010678689A CN112001415A CN 112001415 A CN112001415 A CN 112001415A CN 202010678689 A CN202010678689 A CN 202010678689A CN 112001415 A CN112001415 A CN 112001415A
Authority
CN
China
Prior art keywords
node
probability
value
data
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010678689.9A
Other languages
English (en)
Inventor
王之涵
刘海波
邱奕玮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202010678689.9A priority Critical patent/CN112001415A/zh
Publication of CN112001415A publication Critical patent/CN112001415A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • G06F18/295Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/02Protecting privacy or anonymity, e.g. protecting personally identifiable information [PII]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种基于对抗网络的位置差分隐私保护方法,属于位置隐私保护技术领域,包括以下步骤:S1:基于差分隐私机制的位置数据隐私保护;S2:建立密度感知网络;S3:定义点的重要性程度参数;S4:处理重要性程度高的点;S5:拟合轨迹长度的分布;S6:以马尔科夫链进行新轨迹的生成;S7:对抗网络;本发明通过为图中的边分配概率值来实现隐私保护,对原图数据改变较小,一定程度上保持了较高的原数据效用;另一方面考虑私人位置轨迹信息的节点属性,相较于只保护节点而忽视边,保护更加全面有效,使得不法分子无法以节点推测边的轨迹,也无法通过边的轨迹推测节点的位置,为私人位置隐私的动态位置问题提供良好的保障。

Description

一种基于对抗网络的位置差分隐私保护方法
技术领域
本发明属于位置隐私保护技术领域,具体涉及一种基于对抗网络的位置差分隐私保护方法。
背景技术
随着移动设备和基于位置的服务越来越多,无处不在,移动用户位置跟踪的隐私保护成为一个主要问题。
传统的位置隐私保护技术主要集中在基于点的位置隐私,这通常是通过使用隐身区域对用户迹线中的每个位置点进行干扰或混淆来实现的,目的是确保位置k匿名,然而,这些基于点的隐私机制不足以保护用户轨迹的隐私,即空间相关的位置的时间序列。
多项研究表明,轨迹中每个基于点的位置的独立扰动都有致命的缺点,包括逆向工程和推理供给的敏感性,在这些攻击中,对手观察到一系列受干扰的位置,以推断出移动方式,然后将特定的移动方式与特定的用户联系起来,这种扰动还会遭受空间效用的积聚损失,并且容易受到已知位置的跟踪和攻击。
发明内容
为解决上述背景技术中提出的问题。本发明提供了一种基于对抗网络的位置差分隐私保护方法,具有在抗顶点身份攻击的同时保证了图结构数据最小化失真的特点。
为实现上述目的,本发明提供如下技术方案:一种基于对抗网络的位置差分隐私保护方法,包括以下步骤:
S1:基于差分隐私机制的位置数据隐私保护;
S2:建立密度感知网络;
S3:定义点的重要性程度参数;
S4:处理重要性程度高的点;
S5:拟合轨迹长度的分布;
S6:以马尔科夫链进行新轨迹的生成;
S7:对抗网络。
本发明进一步的,所述步骤S1中,基于差分隐私机制的位置数据隐私保护的具体步骤为:
S11:差分隐私
存在两个相邻数据集D、D′和算法K,K(D)表示算法K在数据集D上的输出集合,O是算法K所有输出值的集合,若算法K在数据集D和D′上任意输出结果为满足下面不等式(1):
Pr[K(D)∈O]≤eε×Pr[K(D′)∈O]
则算法K满足ε差分隐私,ε称为差分隐私预算,ε的取值决定了保护效果,ε取值的大小与与保护效果成正比,与数据失真程度成反比,差分隐私以其严格的数学定义为隐私的评价提供了理论依据;
差分隐私实现机制包括:指数机制、拉普拉斯机制和高斯机制,其中,指数机制一般应用于非指数类数据,拉普拉斯机制和高斯机制适用于数值型数据的隐私保护;
S12:不确定图
给定图G=(V,E),G顶点上的不确定图是G′=(V,P),其中P:Vp→[0,1]是将概率分配给无序顶点对的函数,不确定图G′具有原始图G相同的顶点V,对于确定性图,我们可以假定所有边的概率等于1;
S13:邻近图
给定两个图G1=(V1,E1)和G2=(V2,E2),若在G1、G2中有
Figure BDA0002585066100000021
则称G1、G2为邻近图,由于V1=V2,只要
Figure BDA0002585066100000022
即E1和E2的汉明距离为1,我们就称G1、G2为邻近图,
S14:敏感度
给定一个函数f:G→G″,其中,G、G″具有相同的顶点集合,函数f的全局敏感度为:
Figure BDA0002585066100000023
其中,G1、G2是邻近图,G″为经过随机算法后的输出图,f是查询函数,表示对于G1、G2中的边ei,查询边ei是否存在于G1和G2中。
本发明进一步的,所述步骤S2中,建立密度感知网络的具体步骤为:
S21:密度感知网络的建立
使用具有密度自适应单元格粒度的网络,对于低密度区域,将放置较大的cell,对于高密度区域,将区域划分为更细粒度的较小单元,首先,放置一个N×N均匀的单元格层,这样顶层一共有N2个cell,用C1,C2,...,CN来表示,将轨迹用T来表示,路径总和T所经过的cell的数目为|T|,并统计每一个轨迹所占用的单元格下标,以及计算在每一个单元格Ci中,轨迹T所占用的长度,并将其标准化处理,即该单元格中标准化之后的访问次数:
Figure BDA0002585066100000024
其中,g是标准化之后的值,将g写为集合的形式:
W={g(Dreal,C1),g(Dreal,C1),...,g(Dreal,CN2)}
ΔW=1,只需在每个g(Dreal,Ci)中添加Lap(1/ε1)即可获得加噪之后的
Figure BDA0002585066100000025
并且细分Ci,使得每个Ci由g(Dreal,Ci)进一步分为Mi×Mi的cell,Mi,即每个单元格划分为的小单元格的数目,其值以分段函数的形式来定义:
Figure BDA0002585066100000031
S22:双层网格行程的优化
网格A离散化为Ω(Dreal),以起始单元格Cstart和目标单元格Cend来表示一次行动的路线,如下所示:Cstart→Cend,令h(Cstart→Cend)为计算数据库Dreal中旅行次数Cstart→Cend的函数,并且h表示差分隐私,X为行程分布A×A的整个范围内的随机变量,则行程分布R的计算方式如下:
Figure BDA0002585066100000032
其中,R是一个概率质量函数,其项的总和为1,在两层网格的情况下,一个GPS位置由顶层和底层单元同时索引,可以使用约束推理,以提高准确性和一致性,采用Folloejng线性普通最小二乘(OLS)方法,用Ci表示网格最顶层的单元格,用Ci,j表示网格最底层的单元格,其中
Figure BDA0002585066100000033
在获得顶层行程数
Figure BDA0002585066100000034
时,使用预算θε3,在获底层的行程数
Figure BDA0002585066100000035
时,使用(1-θ)ε3,如果没有隐私干扰,使用无噪声计数h代替
Figure BDA0002585066100000036
即h(Ci→Cj),h(Ci→Cj)=∑klh(Ci,k→Cj,l),在随机干扰每个h后,此值可能不成立,为了重新建立一致性,并最大程度地减少噪声影响,使满足给定
Figure BDA0002585066100000037
的噪声值,可以获得优化的行程路径,记为
Figure BDA0002585066100000038
表示为:
Figure BDA0002585066100000039
在优化底层计数时,上面计算出的优化顶层计数中的差异平均分布在底层单元中:
Figure BDA00025850661000000310
最后,在R的定义中使用优化的行程计数
Figure BDA00025850661000000311
代替
Figure BDA00025850661000000312
本发明进一步的,所述步骤S3中,定义点的重要性程度参数的具体步骤为:
S31:定义节点的聚类系数和访问能力参数
S311:求节点的聚类系数
Figure BDA0002585066100000041
意为相邻节点的度的总和除以相邻节点数,Mn为相邻节点,N为相邻节点数;
S312:求节点的综合访问能力值
Step1:定义节点访问能力值
以中心节点为研究对象,将其抽象为星型拓扑图,以中心节点的计算资源乘以其相邻节点间距离值的总和,来计算中心节点的综合访问频率大小值,
Figure BDA0002585066100000042
其中,C(n)为该中心节点的访问频率,B(n,m)为n,m两点间的路径长度,因一条链路为两端两个节点共用,因此计算路径长度值时需除以2;
Step2:标准化
Figure BDA0002585066100000043
其中,以中心节点的访问能力值分别依次除以相邻节点访问能力值,将结果存储在矩阵Res中,即Res=(Res(1),Res(2),...,Res(N))T
Step3:定义节点综合访问能力值
bn以马尔科夫随机游走模型计算,同时考虑该点与其邻居节点,以该点为初始状态,以适当的随机游动累积报酬的形式,将邻域内的资源聚合起来计算,采用递归的思想求中心节点的综合访问能力值,如下:
Figure BDA0002585066100000044
其中,γ为相邻节点的相对权重,P为转移概率矩阵,P为一个|N|×|N|矩阵,定义如下:
Figure BDA0002585066100000045
P是一个随机矩阵,所有的行的总和为1,以矩阵形式重写
Figure BDA0002585066100000046
Vγ-(1-γ)Re s+γPVγ
其中Re s=(Re s(1),Re s(2),...Re s(|N|))T,并且Vγ=(Vγ(1),Vγ(2),...,Vγ(|N|))T,递归等式
Figure BDA0002585066100000047
可以看做是折现因子为γ的折现奖励的Bellman方程,节点集N上转移概率矩阵为P的马尔科夫链,Re w=(Re w(1),Re w(2),...Re w(|N|)),并且Re w(n)=(1-γ)Re s(n),n∈N,节点n的排名矩阵Vγ(n),是转移概率为P的马尔科夫链的预期折扣累积奖励,即
Figure BDA0002585066100000051
其中n0,n1,n2,...表示采样路径,
Vγ为公式Vγ-(1-γ)Re s+γPVγ的唯一解,由于P是随机的,所以(1-γP),0≤γ≤1是可逆的,因此可以得出
Vγ=(1-γP)-1(1-γ)Re s
根据以上定义,节点的排名Vγ(n)越高,该节点及其附近的访问能力值越高,折扣因子γ是对邻域大小的度量,在确定节点度量时要加以考虑,γ=0时仅考虑本节点资源,而随着γ的增加,在矩阵中靠近节点的拓扑图部分占比越来越大;
Step4:归一化
为消除节点聚集系数与节点访问能力值的量纲,分别对其进行归一化处理,如下:
对聚集系数归一化处理:
Figure BDA0002585066100000052
对节点资源承载能力归一化处理:
Figure BDA0002585066100000053
S313:求节点能力参数
考虑节点在拓扑结构图中的聚集程度,以及访问能力的大小,将节点能力值量化如下:
θn=an′+αbn
其中,an′为归一化后的节点聚类系数,bn′为归一化后的节点访问能力,α为访问能力能力与节点聚类程度对节点能力参数的影响比重;
S32:正态双卵模型为节点分类
采用项目反应理论中的正态双卵模型判定节重要性程度为强的概率,为节点重要性程度的强弱进行分类,以便为不同类型的节点选取不同的备份策略:
Figure BDA0002585066100000054
其中,Q(θn)为对应节点被判定重要性程度为强的概率,Pi(θ)是能力为强节点对应的判断概率,qi(θ)是能力为弱节点的判断概率,
Figure BDA0002585066100000061
表示为正态双卵曲线的陡峭程度,以节点聚类系数的均值计算,
Figure BDA0002585066100000062
为偏置因子,以节点的访问能力的均值表示,θn为节点n的能力参数,为便于该模型中计算,使θn分布在[-2,2],因此对其进行数值范围调整如下:
Figure BDA0002585066100000063
Figure BDA0002585066100000064
将节点能力参数值θn调整至[-2,2]的区间上,设置阈值为r,即节点能力参数的平均值
Figure BDA0002585066100000065
作为初步能力强弱的区分,θn_max为n个节点中节点能力最大值,θn_min为最小值;
Figure BDA0002585066100000066
节点能力值分布,曲线对称中心记为(x0,y0),计算节点强弱的比例如下:
Figure BDA0002585066100000067
Figure BDA0002585066100000068
中,e值为在所有点中,能力较强的节点所占的比例,其经验值为15%—20%。
本发明进一步的,所述步骤S4中,处理重要性程度高的点的具体步骤为:
S41:多边形质心模型
比例集合B,根据距离选择相关的和最大尺寸的点来构建多边形,例如,对一个多边形,该算法从B的坐标为P(xi,yi)的i中选取N个点作为顶点,其中,i=1,2,3,...,N,其中N个点之一位于的原始轨迹,其他点在该点附近;
根据形成的多边形的定点计算多边形质心,公式如下:
Figure BDA0002585066100000069
其中,Pi(xk,yk)是第k个顶点的坐标,在第i_th个多边形中,Pi是第i_th个多边形的顶点数,而ji(x,y)是第i_th个多边形质心的坐标,
多边形质心形成为集合J,其中ji(x,y)∈J;
S42:根据拉普拉斯机制添加噪音
输入隐私保护等级ε和多边形质心集J,然后生成噪声
Figure BDA0002585066100000071
满足概率Pr(j(x,y),λ)使得:
Figure BDA0002585066100000072
其中,j(x,y)表示多边形质心与对应坐标,并且
Figure BDA0002585066100000073
向J中添加拉普拉斯噪声
Figure BDA0002585066100000074
Figure BDA0002585066100000075
其中,ji∈J,ji(x,y)代表第i个多边形的质心,
Figure BDA0002585066100000076
是每一轮的噪声,服从概率Pr(j(x,y),λ)。最后,该算法产能生了集合G;
适用修改后的多边形中心体G替换相应的保护节点f∈A,并且然后发布新的轨迹数据I′,
S43:建立位置搜索树
首先建立位置搜索树(LQ-Trie)上对数据假造,最后后置处理加噪的数据返回位置搜索树,发布噪声后的位置搜索树(LQ-Trie);
S44:基于指数机制遍历与提取位置搜索树
首先按层遍历
Figure BDA0002585066100000079
获得所有满足访问频率不小于min_Count的频繁模式记录集合A,然后通过指数机制在A中选取k个满足的频繁模式ai,该集合为B:
Figure BDA0002585066100000077
其中,Pr(ai)表示被选取的概率,ai·weight表示ai模式的权重,基于指数机制的选择算法步骤描述如下:
Step1:输入频繁模式记录集合A,给A的N个模式记录ai打分,设置为:
Mark(A,ai)=Q(ai)
其中,Q(ai)表示ai模式的访问频率;
Step2:计算每个模式记录的权重:
Figure BDA0002585066100000078
并按降序排列;
Step3:从集合A中以概率
Figure BDA0002585066100000081
选取k个频繁模式记录ai,该集合为B;
上述指数机制完成选择,而指数机制的关键是打分函数的设置,设置打分函数为Mark(A,ai)=Q(ai)(设Q(ai)为访问频率),每个模式记录的权重为:
Figure BDA0002585066100000082
其中,ε1表示选取k个模式所分配的隐私预算,Mark(A,ai)表示ai的打分值,ΔMark计算如下式所示:
Figure BDA0002585066100000083
ΔMark表示N个数据记录模式中的访问频率之差的最大值,
根据上式计算出加噪的集合E,最后根据集合E发布加噪后的位置搜索树
Figure BDA0002585066100000084
本发明进一步的,所述步骤S43中,LQ-Trie=DPK的算法步骤为:
Step1:输入数据集D和差分隐私保护参数ε1,ε2,k,min_count,ε=ε12
Step2:根据数据集D和项目集I,构造多级查询树
Figure BDA0002585066100000085
Step3:从
Figure BDA0002585066100000086
中获取访问频率项集合A,满足在集合A中每个数据的访问次数不低于min_count;
Step4:使用指数机制从集合A中选择访问频率项B,其中每个选择的数据记录都满足以下条件:
Figure BDA0002585066100000087
其中,B的大小为k,ai∈A为访问频率项记录,εi为相应的的隐私保护等级,Rank(A,ai)为ai的评分值,ΔRank为评分函数灵敏度;
Step5:使用拉普拉斯机制向集合B中添加噪声
Figure BDA0002585066100000088
得到集合C,并且根据C和A构造并发布新的多集查询树。
本发明进一步的,所述步骤S5中,拟合轨迹长度的分布的具体步骤为:
将观察到的行程长度视为直方图,考虑多个不同形状的已知分布,如均匀分布、指数分布和泊松分布,作为捕获直方图的候选分布,候选分布有一个共同的特点,它们的参数直接关系到汇总统计量,而汇总统计量可以从中得到,例如,泊松分布有一个值为平均长度的参数,而指数分布的参数与中位数长度med有这样的关系;可以使用拉普拉斯和指数机制私下获取平均值和中位数等统计信息,将其分解成一个噪声总和除以一个噪声总数的形式,来获得一个私有的均值,其中拉普拉斯机制用于注入噪声;私有中位数可以使用Cormode等人对指数的修改来获取;这个机制返回的是有噪声的中位数x,而不是实际中的中位数,这里q意为,当x接近实际的中位数,那么它的rank将与实际中位数的rank相近,因此,每个候选人的分数都会受到rank偏离的程度的负影响;
在构建了上述多个候选分布之后,选择一个作为最合适的分布,将其存储在AdaTrace的内存中,并删除其余的分布,使用拟合优度检验来确定哪个分布是最佳拟合,使用检验统计量的值,由于其差分隐私应用;
轨迹综合算法
AdaTrace的综合算法结合了四个功能:密度感知网格A,移动性模型Π(Dreal),行程分布R和每次旅行的分布的长度集合L,它的输出基于合成轨迹;
算法:Trajectorysynthesisalgorithm
Input:网格A,形成分布R,可移动模型Π,长度分布L
Output:候选合成轨迹Tsyn
从R的pmf里随机选取一个样本Cstart→Cend
对于路线Cstart→Cend,从L中得到拟合的概率分布PD
从PD中挑选一个随机样本
将Tsyn使用Tsyn[1]=Cstart和Tsyn[l]=Cend初始化
fori=2tol-1do
for Ccand∈A do
从Π中重新得到:
w1=Pr(T[i]=Ccand|T[i]...T[i-1])和
w2=Pr(T[l]=Cend|T[i]...T[i-1]Ccand)
将Ccand的权重设置为w1·w2
end
来自A的样本Cchosen,其概率与上面计算的去权重成正比
设置Tsyn[i]=Cchosen
end
返回Tsyn
首先,通过根据形成分布进行采样来确定合成轨迹的起点和终点,其次,从中的适当路径长度分布L中取样的长度,第三,将初始化,并将第一个位置作为形成的起始单元格,最后一个位置作为形成的目的单元格,第四,给定的两个端点,在移动性模型上采用随机游走找到中间位置,当考虑网络A的单元格作为候选,确定的第i个位置时,将为每个候选对象分配一个权重,该权重由表示为和的两个子权重组成,进行回溯,并找到下一个位置是的概率,就像马尔科夫假设的应用一样,同时,进行前向查找,并找到当前位置是时,而最终位置为的概率,这是一个-步的传输概率,是使用1步传输概率的组合计算出来的为了提高效率,在学习之后预先计算了多步转换概率,因此对于不同的不重复相同的计算;
上面的伪代码为定义确定起点和终点之间的单次行程轨迹,其中,每个用户的中的GPS记录对应于短期旅行,例如Uber或出租车,但是,如果是长时间(例如几天)收集的,则用户的记录可能包含多次行程记录,在这种情况下,每个用户可以多次运行合成算法,并且下一个轨迹的起始位置等于上一个轨迹的最后已知位置,接着将这些轨迹连接在一起,以形成具有所需行程次数的用户最终GPS记录。
本发明进一步的,述步骤S6中,以马尔科夫链进行新轨迹的生成的具体步骤为:
使用Markov链进行移动性建模,r阶的马尔科夫链表示为轨迹中的下一个位置取决于先前r阶的位置,而不是先前所有的位置,基于网络的离散化建立离散状态的马尔科夫链,将自适应网格中的每个单元格看做马尔科夫链中的一个状态,假设每个轨迹表示为一个按时间顺序排列的单元格序列,并由T[j]表示轨迹T中的第j条,写出T到具有下一个单元格的转移概率,观察其先前的n个位置:
Pr(T[n+1]=Cnext|T[1]...T[n])
=Pr(T[n+1]=Cnext|T[n-r+1]T[n-r+2]...T[n])
trajectory-specific流动模型,每个概率Π(T),T[n-r+1]T[n-r+2]...T[n]是trajectory-specific模型捕获单个用户的移动性模型,以Π(Dreal)表示;
归结为含T[n-r+1]T[n-r+2]...T[n]Cnext的序列与T[n-r+1]T[n-r+2]...T[n]的序列之比,特定轨迹的移动性模型Π(T)是每个概率Pr(T[n+1]|T[1]...T[n])的集合,捕获了Dreal中单个用户的移动性,接着通过对彼此的各个移动性模型求平均,来找到整个Dreal的聚合移动性模型;
类似于网格构建过程中的噪声添加模型Π(Dreal)也受到拉普拉斯噪声的扰动,以满足差分隐私,将噪声添加到马尔可夫概率中,使得马尔可夫概率以序列计数的比来计算,并认为敏感度等于1,所需的噪声数量有限,因此,Π(Dreal)可以保持对噪声的鲁棒性。
本发明进一步的,所述步骤S7中,对抗网络的具体步骤为:
S71:对抗网络建模
继Goodfellow等,进一步定义了一个鉴别器网络
Figure BDA0002585066100000101
将它与
Figure BDA0002585066100000102
交替进行优化,以解决对抗性最小——最大问题:
Figure BDA0002585066100000111
总体思想是,它允许训练生成模型G,其目的是欺骗区分鉴别器D,该鉴别器D被训练为区分高仿真轨迹数据和真实轨迹数据,通过这种方法,生成器可以学习创建和真实轨迹数据相似的结果,因此很难用D进行分类;
在深度生成网络G,其核心是B残差块,使用两个具有3×3小内核和64个特征轨迹数据的卷积层,然后使用归一化层和ParametricReLU作为激活函数,通过两个训练好了的子像素卷积层来提高输入图像的仿真率,为了从生成的SR轨迹样本中区分出真实的HR轨迹数据,训练了一个判别网络,使用LeakyReLU激活(α=0.2),并避免整个网络的最大池化问题,它包含8个卷积层,其卷积核的数量增加了3×3,与VGG网络一样,从64个核增加到512个核,增加了两倍,每当特征数量增加一倍时,将使用卷积来降低图像仿真率,通过生成的512个特征图,与两个密集层和一个最终的sigmoid激活函数,来获得样本分类的概率;
S72:感知损失函数
设计一个损失函数,评估在感知上的相关特征,将感知损失表示为内容损失
Figure BDA0002585066100000112
和对抗性损失的加权总和,如下:
Figure BDA0002585066100000113
其中,第一项为内容损失,第二项为对抗损失,一起组成感知损失基于VGG的内容损失;
S73:内容丢失
按轨迹数据计算的的MSE损失计算如下:
Figure BDA0002585066100000114
根据Simonyan和Zisserman中描述的与训练的19层VGG网络的ReLU激活层来定义VGG损失,用φi,j,j表示通过第j个卷积(激活后),在第i个最大池化层之前的特征图,然后将VGG损失定义为,重构轨迹数据
Figure BDA0002585066100000115
的特征表示与参考轨迹数据IHR之间的欧氏距离:
Figure BDA0002585066100000116
其中,Wi,j和Hi,j描述了VGG网络中各特征轨迹数据的维数;
S74:对抗损失
除了到目前为止描述的内容损失以外,还将GAN的生成成分添加到感知损失中,这使得网络更倾向于那些基于多种真是原始轨迹数据的解决方案,使得欺骗鉴别器网络,生成损失根据鉴别器
Figure BDA0002585066100000117
对所有训练样本的概率定义
Figure BDA0002585066100000118
为:
Figure BDA0002585066100000119
其中,
Figure BDA0002585066100000121
为重新生成轨迹数据,
Figure BDA0002585066100000122
为高仿真轨迹数据的概率,为了得到更好的梯度,最小化
Figure BDA0002585066100000123
而不是
Figure BDA0002585066100000124
与现有技术相比,本发明的有益效果是:
本发明通过为图中的边分配概率值来实现隐私保护,对原图数据改变较小,一定程度上保持了较高的原数据效用;另一方面考虑私人位置轨迹信息的节点属性,相较于只保护节点而忽视边,保护更加全面有效,使得不法分子无法以节点推测边的轨迹,也无法通过边的轨迹推测节点的位置,为私人的位置隐私的动态位置问题提供良好的保障。
附图说明
图1为本发明的流程图;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明提供以下技术方案:一种基于对抗网络的位置差分隐私保护方法,包括以下步骤:
S1:基于差分隐私机制的位置数据隐私保护;
S2:建立密度感知网络;
S3:定义点的重要性程度参数;
S4:处理重要性程度高的点;
S5:拟合轨迹长度的分布;
S6:以马尔科夫链进行新轨迹的生成;
S7:对抗网络。
具体的,步骤S1中,基于差分隐私机制的位置数据隐私保护的具体步骤为:
S11:差分隐私
存在两个相邻数据集D、D′和算法K,K(D)表示算法K在数据集D上的输出集合,O是算法K所有输出值的集合,若算法K在数据集D和D′上任意输出结果为满足下面不等式(1):
Pr[K(D)∈O]≤eε×Pr[K(D′)∈O]
则算法K满足ε差分隐私,ε称为差分隐私预算,ε的取值决定了保护效果,ε取值的大小与与保护效果成正比,与数据失真程度成反比,差分隐私以其严格的数学定义为隐私的评价提供了理论依据;
差分隐私实现机制包括:指数机制、拉普拉斯机制和高斯机制,其中,指数机制一般应用于非指数类数据,拉普拉斯机制和高斯机制适用于数值型数据的隐私保护;
S12:不确定图
给定图G=(V,E),G顶点上的不确定图是G′=(V,P),其中P:Vp→[0,1]是将概率分配给无序顶点对的函数,不确定图G′具有原始图G相同的顶点V,对于确定性图,我们可以假定所有边的概率等于1;
S13:邻近图
给定两个图G1=(V1,E1)和G2=(V2,E2),若在G1、G2中有
Figure BDA0002585066100000136
则称G1、G2为邻近图,由于V1=V2,只要
Figure BDA0002585066100000137
即E1和E2的汉明距离为1,我们就称G1、G2为邻近图,
S14:敏感度
给定一个函数f:G→G″,其中,G、G″具有相同的顶点集合,函数f的全局敏感度为:
Figure BDA0002585066100000131
其中,G1、G2是邻近图,G″为经过随机算法后的输出图,f是查询函数,表示对于G1、G2中的边ei,查询边ei是否存在于G1和G2中。
具体的,步骤S2中,建立密度感知网络的具体步骤为:
S21:密度感知网络的建立
使用具有密度自适应单元格粒度的网络,对于低密度区域,将放置较大的cell,对于高密度区域,将区域划分为更细粒度的较小单元,首先,放置一个N×N均匀的单元格层,这样顶层一共有N2个cell,用C1,C2,...,CN来表示,将轨迹用T来表示,路径总和T所经过的cell的数目为|T|,并统计每一个轨迹所占用的单元格下标,以及计算在每一个单元格Ci中,轨迹T所占用的长度,并将其标准化处理,即该单元格中标准化之后的访问次数:
Figure BDA0002585066100000132
其中,g是标准化之后的值,将g写为集合的形式:
Figure BDA0002585066100000133
ΔW=1,只需在每个g(Dreal,Ci)中添加Lap(1/ε1)即可获得加噪之后的
Figure BDA0002585066100000134
并且细分Ci,使得每个Ci由g(Dreal,Ci)进一步分为Mi×Mi的cell,Mi,即每个单元格划分为的小单元格的数目,其值以分段函数的形式来定义:
Figure BDA0002585066100000135
S22:双层网格行程的优化
网格A离散化为Ω(Dreal),以起始单元格Cstart和目标单元格Cend来表示一次行动的路线,如下所示:Cstart→Cend,令h(Cstart→Cend)为计算数据库Dreal中旅行次数Cstart→Cend的函数,并且h表示差分隐私,X为行程分布A×A的整个范围内的随机变量,则行程分布R的计算方式如下:
Figure BDA0002585066100000141
其中,R是一个概率质量函数,其项的总和为1,在两层网格的情况下,一个GPS位置由顶层和底层单元同时索引,可以使用约束推理,以提高准确性和一致性,采用Folloejng线性普通最小二乘(OLS)方法,用Ci表示网格最顶层的单元格,用Ci,j表示网格最底层的单元格,其中
Figure BDA0002585066100000142
在获得顶层行程数
Figure BDA0002585066100000143
时,使用预算θε3,在获底层的行程数
Figure BDA0002585066100000144
时,使用(1-θ)ε3,如果没有隐私干扰,使用无噪声计数h代替
Figure BDA0002585066100000145
即h(Ci→Cj),h(Ci→Cj)=∑klh(Ci,k→Cj,l),在随机干扰每个h后,此值可能不成立,为了重新建立一致性,并最大程度地减少噪声影响,使满足给定
Figure BDA0002585066100000146
的噪声值,可以获得优化的行程路径,记为
Figure BDA0002585066100000147
表示为:
Figure BDA0002585066100000148
在优化底层计数时,上面计算出的优化顶层计数中的差异平均分布在底层单元中:
Figure BDA0002585066100000149
最后,在R的定义中使用优化的行程计数
Figure BDA00025850661000001410
代替
Figure BDA00025850661000001411
具体的,步骤S3中,定义点的重要性程度参数的具体步骤为:
S31:定义节点的聚类系数和访问能力参数
S311:求节点的聚类系数
Figure BDA00025850661000001412
意为相邻节点的度的总和除以相邻节点数,Mn为相邻节点,N为相邻节点数;
S312:求节点的综合访问能力值
Step1:定义节点访问能力值
以中心节点为研究对象,将其抽象为星型拓扑图,以中心节点的计算资源乘以其相邻节点间距离值的总和,来计算中心节点的综合访问频率大小值,
Figure BDA0002585066100000151
其中,C(n)为该中心节点的访问频率,B(n,m)为n,m两点间的路径长度,因一条链路为两端两个节点共用,因此计算路径长度值时需除以2;
Step2:标准化
Figure BDA0002585066100000152
其中,以中心节点的访问能力值分别依次除以相邻节点访问能力值,将结果存储在矩阵Res中,即Res=(Res(1),Res(2),...,Res(N))T
Step3:定义节点综合访问能力值
bn以马尔科夫随机游走模型计算,同时考虑该点与其邻居节点,以该点为初始状态,以适当的随机游动累积报酬的形式,将邻域内的资源聚合起来计算,采用递归的思想求中心节点的综合访问能力值,如下:
Figure BDA0002585066100000153
其中,γ为相邻节点的相对权重,P为转移概率矩阵,P为一个|N|×|N|矩阵,定义如下:
Figure BDA0002585066100000154
P是一个随机矩阵,所有的行的总和为1,以矩阵形式重写
Figure BDA0002585066100000155
Vγ-(1-γ)Re s+γPVγ
其中Re s=(Re s(1),Re s(2),...Re s(|N|))T,并且Vγ=(Vγ(1),Vγ(2),...,Vγ(|N|))T,递归等式
Figure BDA0002585066100000156
可以看做是折现因子为γ的折现奖励的Bellman方程,节点集N上转移概率矩阵为P的马尔科夫链,Re w=(Re w(1),Re w(2),...Re w(|N|)),并且Re w(n)=(1-γ)Re s(n),n∈N,节点n的排名矩阵Vγ(n),是转移概率为P的马尔科夫链的预期折扣累积奖励,即
Figure BDA0002585066100000157
其中n0,n1,n2,...表示采样路径,
Vγ为公式Vγ-(1-γ)Re s+γPVγ的唯一解,由于P是随机的,所以(1-γP),0≤γ≤1是可逆的,因此可以得出
Vγ=(1-γP)-1(1-γ)Re s
根据以上定义,节点的排名Vγ(n)越高,该节点及其附近的访问能力值越高,折扣因子γ是对邻域大小的度量,在确定节点度量时要加以考虑,γ=0时仅考虑本节点资源,而随着γ的增加,在矩阵中靠近节点的拓扑图部分占比越来越大;
Step4:归一化
为消除节点聚集系数与节点访问能力值的量纲,分别对其进行归一化处理,如下:
对聚集系数归一化处理:
Figure BDA0002585066100000161
对节点资源承载能力归一化处理:
Figure BDA0002585066100000162
S313:求节点能力参数
考虑节点在拓扑结构图中的聚集程度,以及访问能力的大小,将节点能力值量化如下:
θn=an′+αbn
其中,an′为归一化后的节点聚类系数,bn′为归一化后的节点访问能力,α为访问能力能力与节点聚类程度对节点能力参数的影响比重;
S32:正态双卵模型为节点分类
采用项目反应理论中的正态双卵模型判定节重要性程度为强的概率,为节点重要性程度的强弱进行分类,以便为不同类型的节点选取不同的备份策略:
Figure BDA0002585066100000163
其中,Q(θn)为对应节点被判定重要性程度为强的概率,Pi(θ)是能力为强节点对应的判断概率,qi(θ)是能力为弱节点的判断概率,
Figure BDA0002585066100000164
表示为正态双卵曲线的陡峭程度,以节点聚类系数的均值计算,
Figure BDA0002585066100000165
为偏置因子,以节点的访问能力的均值表示,θn为节点n的能力参数,为便于该模型中计算,使θn分布在[-2,2],因此对其进行数值范围调整如下:
Figure BDA0002585066100000171
Figure BDA0002585066100000172
将节点能力参数值θn调整至[-2,2]的区间上,设置阈值为r,即节点能力参数的平均值
Figure BDA0002585066100000173
作为初步能力强弱的区分,θn_max为n个节点中节点能力最大值,θn_min为最小值;
Figure BDA0002585066100000174
节点能力值分布,曲线对称中心记为(x0,y0),计算节点强弱的比例如下:
Figure BDA0002585066100000175
Figure BDA0002585066100000176
中,e值为在所有点中,能力较强的节点所占的比例,其经验值为15%—20%。
具体的,步骤S4中,处理重要性程度高的点的具体步骤为:
S41:多边形质心模型
比例集合B,根据距离选择相关的和最大尺寸的点来构建多边形,例如,对一个多边形,该算法从B的坐标为P(xi,yi)的i中选取N个点作为顶点,其中,i=1,2,3,...,N,其中N个点之一位于的原始轨迹,其他点在该点附近;
根据形成的多边形的定点计算多边形质心,公式如下:
Figure BDA0002585066100000177
其中,Pi(xk,yk)是第k个顶点的坐标,在第i_th个多边形中,Pi是第i_th个多边形的顶点数,而ji(x,y)是第i_th个多边形质心的坐标,
多边形质心形成为集合J,其中ji(x,y)∈J;
S42:根据拉普拉斯机制添加噪音
输入隐私保护等级ε和多边形质心集J,然后生成噪声
Figure BDA0002585066100000178
满足概率Pr(j(x,y),λ)使得:
Figure BDA0002585066100000179
其中,j(x,y)表示多边形质心与对应坐标,并且
Figure BDA0002585066100000181
向J中添加拉普拉斯噪声
Figure BDA0002585066100000182
Figure BDA0002585066100000183
其中,ji∈J,ji(x,y)代表第i个多边形的质心,
Figure BDA0002585066100000184
是每一轮的噪声,服从概率Pr(j(x,y),λ)。最后,该算法产能生了集合G;
适用修改后的多边形中心体G替换相应的保护节点f∈A,并且然后发布新的轨迹数据I′,
S43:建立位置搜索树
首先建立位置搜索树(LQ-Trie)上对数据假造,最后后置处理加噪的数据返回位置搜索树,发布噪声后的位置搜索树(LQ-Trie);
S44:基于指数机制遍历与提取位置搜索树
首先按层遍历
Figure BDA0002585066100000185
获得所有满足访问频率不小于min_Count的频繁模式记录集合A,然后通过指数机制在A中选取k个满足的频繁模式ai,该集合为B:
Figure BDA0002585066100000186
其中,Pr(ai)表示被选取的概率,ai·weight表示ai模式的权重,基于指数机制的选择算法步骤描述如下:
Step1:输入频繁模式记录集合A,给A的N个模式记录ai打分,设置为:
Mark(A,ai)=Q(ai)
其中,Q(ai)表示ai模式的访问频率;
Step2:计算每个模式记录的权重:
Figure BDA0002585066100000187
并按降序排列;
Step3:从集合A中以概率
Figure BDA0002585066100000188
选取k个频繁模式记录ai,该集合为B;
上述指数机制完成选择,而指数机制的关键是打分函数的设置,设置打分函数为Mark(A,ai)=Q(ai)(设Q(ai)为访问频率),每个模式记录的权重为:
Figure BDA0002585066100000189
其中,ε1表示选取k个模式所分配的隐私预算,Mark(A,ai)表示ai的打分值,ΔMark计算如下式所示:
Figure BDA0002585066100000191
ΔMark表示N个数据记录模式中的访问频率之差的最大值,
根据上式计算出加噪的集合E,最后根据集合E发布加噪后的位置搜索树
Figure BDA0002585066100000192
具体的,步骤S43中,LQ-Trie=DPK的算法步骤为:
Step1:输入数据集D和差分隐私保护参数ε1,ε2,k,min_count,ε=ε12
Step2:根据数据集D和项目集I,构造多级查询树
Figure BDA0002585066100000193
Step3:从
Figure BDA0002585066100000194
中获取访问频率项集合A,满足在集合A中每个数据的访问次数不低于min_count;
Step4:使用指数机制从集合A中选择访问频率项B,其中每个选择的数据记录都满足以下条件:
Figure BDA0002585066100000195
其中,B的大小为k,ai∈A为访问频率项记录,εi为相应的的隐私保护等级,Rank(A,ai)为ai的评分值,ΔRank为评分函数灵敏度;
Step5:使用拉普拉斯机制向集合B中添加噪声
Figure BDA0002585066100000196
得到集合C,并且根据C和A构造并发布新的多集查询树。
具体的,步骤S5中,拟合轨迹长度的分布的具体步骤为:
将观察到的行程长度视为直方图,考虑多个不同形状的已知分布,如均匀分布、指数分布和泊松分布,作为捕获直方图的候选分布,候选分布有一个共同的特点,它们的参数直接关系到汇总统计量,而汇总统计量可以从中得到,例如,泊松分布有一个值为平均长度的参数,而指数分布的参数与中位数长度med有这样的关系;可以使用拉普拉斯和指数机制私下获取平均值和中位数等统计信息,将其分解成一个噪声总和除以一个噪声总数的形式,来获得一个私有的均值,其中拉普拉斯机制用于注入噪声;私有中位数可以使用Cormode等人对指数的修改来获取;这个机制返回的是有噪声的中位数x,而不是实际中的中位数,这里q意为,当x接近实际的中位数,那么它的rank将与实际中位数的rank相近,因此,每个候选人的分数都会受到rank偏离的程度的负影响;
在构建了上述多个候选分布之后,选择一个作为最合适的分布,将其存储在AdaTrace的内存中,并删除其余的分布,使用拟合优度检验来确定哪个分布是最佳拟合,使用检验统计量的值,由于其差分隐私应用;
轨迹综合算法
AdaTrace的综合算法结合了四个功能:密度感知网格A,移动性模型Π(Dreal),行程分布R和每次旅行的分布的长度集合L,它的输出基于合成轨迹;
算法:Trajectorysynthesisalgorithm
Input:网格A,形成分布R,可移动模型Π,长度分布L
Output:候选合成轨迹Tsyn
从R的pmf里随机选取一个样本Cstart→Cend
对于路线Cstart→Cend,从L中得到拟合的概率分布PD
从PD中挑选一个随机样本
将Tsyn使用Tsyn[1]=Cstart和Tsyn[l]=Cend初始化
fori=2tol-1do
for Ccand∈A do
从Π中重新得到:
w1=Pr(T[i]=Ccand|T[i]...T[i-1])和
w2=Pr(T[l]=Cend|T[i]...T[i-1]Ccand)
将Ccand的权重设置为w1·w2
end
来自A的样本Cchosen,其概率与上面计算的去权重成正比
设置Tsyn[i]=Cchosen
end
返回Tsyn
首先,通过根据形成分布进行采样来确定合成轨迹的起点和终点,其次,从中的适当路径长度分布L中取样的长度,第三,将初始化,并将第一个位置作为形成的起始单元格,最后一个位置作为形成的目的单元格,第四,给定的两个端点,在移动性模型上采用随机游走找到中间位置,当考虑网络A的单元格作为候选,确定的第i个位置时,将为每个候选对象分配一个权重,该权重由表示为和的两个子权重组成,进行回溯,并找到下一个位置是的概率,就像马尔科夫假设的应用一样,同时,进行前向查找,并找到当前位置是时,而最终位置为的概率,这是一个-步的传输概率,是使用1步传输概率的组合计算出来的为了提高效率,在学习之后预先计算了多步转换概率,因此对于不同的不重复相同的计算;
上面的伪代码为定义确定起点和终点之间的单次行程轨迹,其中,每个用户的中的GPS记录对应于短期旅行,例如Uber或出租车,但是,如果是长时间(例如几天)收集的,则用户的记录可能包含多次行程记录,在这种情况下,每个用户可以多次运行合成算法,并且下一个轨迹的起始位置等于上一个轨迹的最后已知位置,接着将这些轨迹连接在一起,以形成具有所需行程次数的用户最终GPS记录。
具体的,步骤S6中,以马尔科夫链进行新轨迹的生成的具体步骤为:
使用Markov链进行移动性建模,r阶的马尔科夫链表示为轨迹中的下一个位置取决于先前r阶的位置,而不是先前所有的位置,基于网络的离散化建立离散状态的马尔科夫链,将自适应网格中的每个单元格看做马尔科夫链中的一个状态,假设每个轨迹表示为一个按时间顺序排列的单元格序列,并由T[j]表示轨迹T中的第j条,写出T到具有下一个单元格的转移概率,观察其先前的n个位置:
Pr(T[n+1]=Cnext|T[1]...T[n])
=Pr(T[n+1]=Cnext|T[n-r+1]T[n-r+2]...T[n])
trajectory-specific流动模型,每个概率Π(T),T[n-r+1]T[n-r+2]...T[n]是trajectory-specific模型捕获单个用户的移动性模型,以Π(Dreal)表示;
归结为含T[n-r+1]T[n-r+2]...T[n]Cnext的序列与T[n-r+1]T[n-r+2]...T[n]的序列之比,特定轨迹的移动性模型Π(T)是每个概率Pr(T[n+1]|T[1]...T[n])的集合,捕获了Dreal中单个用户的移动性,接着通过对彼此的各个移动性模型求平均,来找到整个Dreal的聚合移动性模型;
类似于网格构建过程中的噪声添加模型Π(Dreal)也受到拉普拉斯噪声的扰动,以满足差分隐私,将噪声添加到马尔可夫概率中,使得马尔可夫概率以序列计数的比来计算,并认为敏感度等于1,所需的噪声数量有限,因此,Π(Dreal)可以保持对噪声的鲁棒性。
具体的,步骤S7中,对抗网络的具体步骤为:
S71:对抗网络建模
继Goodfellow等,进一步定义了一个鉴别器网络
Figure BDA0002585066100000211
将它与
Figure BDA0002585066100000212
交替进行优化,以解决对抗性最小——最大问题:
Figure BDA0002585066100000213
总体思想是,它允许训练生成模型G,其目的是欺骗区分鉴别器D,该鉴别器D被训练为区分高仿真轨迹数据和真实轨迹数据,通过这种方法,生成器可以学习创建和真实轨迹数据相似的结果,因此很难用D进行分类;
在深度生成网络G,其核心是B残差块,使用两个具有3×3小内核和64个特征轨迹数据的卷积层,然后使用归一化层和ParametricReLU作为激活函数,通过两个训练好了的子像素卷积层来提高输入图像的仿真率,为了从生成的SR轨迹样本中区分出真实的HR轨迹数据,训练了一个判别网络,使用LeakyReLU激活(α=0.2),并避免整个网络的最大池化问题,它包含8个卷积层,其卷积核的数量增加了3×3,与VGG网络一样,从64个核增加到512个核,增加了两倍,每当特征数量增加一倍时,将使用卷积来降低图像仿真率,通过生成的512个特征图,与两个密集层和一个最终的sigmoid激活函数,来获得样本分类的概率;
S72:感知损失函数
设计一个损失函数,评估在感知上的相关特征,将感知损失表示为内容损失
Figure BDA0002585066100000221
和对抗性损失的加权总和,如下:
Figure BDA0002585066100000222
其中,第一项为内容损失,第二项为对抗损失,一起组成感知损失基于VGG的内容损失;
S73:内容丢失
按轨迹数据计算的的MSE损失计算如下:
Figure BDA0002585066100000223
根据Simonyan和Zisserman中描述的与训练的19层VGG网络的ReLU激活层来定义VGG损失,用φi,j,j表示通过第j个卷积(激活后),在第i个最大池化层之前的特征图,然后将VGG损失定义为,重构轨迹数据
Figure BDA0002585066100000224
的特征表示与参考轨迹数据IHR之间的欧氏距离:
Figure BDA0002585066100000225
其中,Wi,j和Hi,j描述了VGG网络中各特征轨迹数据的维数;
S74:对抗损失
除了到目前为止描述的内容损失以外,还将GAN的生成成分添加到感知损失中,这使得网络更倾向于那些基于多种真是原始轨迹数据的解决方案,使得欺骗鉴别器网络,生成损失根据鉴别器
Figure BDA0002585066100000226
对所有训练样本的概率定义
Figure BDA0002585066100000227
为:
Figure BDA0002585066100000228
其中,
Figure BDA0002585066100000229
为重新生成轨迹数据,
Figure BDA00025850661000002210
为高仿真轨迹数据的概率,为了得到更好的梯度,最小化
Figure BDA00025850661000002211
而不是
Figure BDA00025850661000002212
本发明的工作原理及使用流程:S1:基于差分隐私机制的位置数据隐私保护
S11:差分隐私
存在两个相邻数据集D、D′和算法K,K(D)表示算法K在数据集D上的输出集合,O是算法K所有输出值的集合,若算法K在数据集D和D′上任意输出结果为满足下面不等式(1):
Pr[K(D)∈O]≤eε×Pr[K(D′)∈O]
则算法K满足ε差分隐私,ε称为差分隐私预算,ε的取值决定了保护效果,ε取值的大小与与保护效果成正比,与数据失真程度成反比,差分隐私以其严格的数学定义为隐私的评价提供了理论依据;
差分隐私实现机制包括:指数机制、拉普拉斯机制和高斯机制,其中,指数机制一般应用于非指数类数据,拉普拉斯机制和高斯机制适用于数值型数据的隐私保护;
S12:不确定图
给定图G=(V,E),G顶点上的不确定图是G′=(V,P),其中P:Vp→[0,1]是将概率分配给无序顶点对的函数,不确定图G′具有原始图G相同的顶点V,对于确定性图,我们可以假定所有边的概率等于1;
S13:邻近图
给定两个图G1=(V1,E1)和G2=(V2,E2),若在G1、G2中有
Figure BDA0002585066100000231
则称G1、G2为邻近图,由于V1=V2,只要
Figure BDA0002585066100000232
即E1和E2的汉明距离为1,我们就称G1、G2为邻近图,
S14:敏感度
给定一个函数f:G→G″,其中,G、G″具有相同的顶点集合,函数f的全局敏感度为:
Figure BDA0002585066100000233
其中,G1、G2是邻近图,G″为经过随机算法后的输出图,f是查询函数,表示对于G1、G2中的边ei,查询边ei是否存在于G1和G2中;
S2:建立密度感知网络
S21:密度感知网络的建立
使用具有密度自适应单元格粒度的网络,对于低密度区域,将放置较大的cell,对于高密度区域,将区域划分为更细粒度的较小单元,首先,放置一个N×N均匀的单元格层,这样顶层一共有N2个cell,用C1,C2,...,CN来表示,将轨迹用T来表示,路径总和T所经过的cell的数目为|T|,并统计每一个轨迹所占用的单元格下标,以及计算在每一个单元格Ci中,轨迹T所占用的长度,并将其标准化处理,即该单元格中标准化之后的访问次数:
Figure BDA0002585066100000234
其中,g是标准化之后的值,将g写为集合的形式:
Figure BDA0002585066100000235
ΔW=1,只需在每个g(Dreal,Ci)中添加Lap(1/ε1)即可获得加噪之后的
Figure BDA0002585066100000241
并且细分Ci,使得每个Ci由g(Dreal,Ci)进一步分为Mi×Mi的cell,Mi,即每个单元格划分为的小单元格的数目,其值以分段函数的形式来定义:
Figure BDA0002585066100000242
S22:双层网格行程的优化
网格A离散化为Ω(Dreal),以起始单元格Cstart和目标单元格Cend来表示一次行动的路线,如下所示:Cstart→Cend,令h(Cstart→Cend)为计算数据库Dreal中旅行次数Cstart→Cend的函数,并且h表示差分隐私,X为行程分布A×A的整个范围内的随机变量,则行程分布R的计算方式如下:
Figure BDA0002585066100000243
其中,R是一个概率质量函数,其项的总和为1,在两层网格的情况下,一个GPS位置由顶层和底层单元同时索引,可以使用约束推理,以提高准确性和一致性,采用Folloejng线性普通最小二乘(OLS)方法,用Ci表示网格最顶层的单元格,用Ci,j表示网格最底层的单元格,其中
Figure BDA0002585066100000244
在获得顶层行程数
Figure BDA0002585066100000245
时,使用预算θε3,在获底层的行程数
Figure BDA0002585066100000246
时,使用(1-θ)ε3,如果没有隐私干扰,使用无噪声计数h代替
Figure BDA0002585066100000247
即h(Ci→Cj),h(Ci→Cj)=∑klh(Ci,k→Cj,l),在随机干扰每个h后,此值可能不成立,为了重新建立一致性,并最大程度地减少噪声影响,使满足给定
Figure BDA0002585066100000248
的噪声值,可以获得优化的行程路径,记为
Figure BDA0002585066100000249
表示为:
Figure BDA00025850661000002410
在优化底层计数时,上面计算出的优化顶层计数中的差异平均分布在底层单元中:
Figure BDA00025850661000002411
最后,在R的定义中使用优化的行程计数
Figure BDA00025850661000002412
代替
Figure BDA00025850661000002413
S3:定义点的重要性程度参数
S31:定义节点的聚类系数和访问能力参数
S311:求节点的聚类系数
Figure BDA0002585066100000251
意为相邻节点的度的总和除以相邻节点数,Mn为相邻节点,N为相邻节点数;
S312:求节点的综合访问能力值
Step1:定义节点访问能力值
以中心节点为研究对象,将其抽象为星型拓扑图,以中心节点的计算资源乘以其相邻节点间距离值的总和,来计算中心节点的综合访问频率大小值,
Figure BDA0002585066100000252
其中,C(n)为该中心节点的访问频率,B(n,m)为n,m两点间的路径长度,因一条链路为两端两个节点共用,因此计算路径长度值时需除以2;
Step2:标准化
Figure BDA0002585066100000253
其中,以中心节点的访问能力值分别依次除以相邻节点访问能力值,将结果存储在矩阵Res中,即Res=(Res(1),Res(2),...,Res(N))T
Step3:定义节点综合访问能力值
bn以马尔科夫随机游走模型计算,同时考虑该点与其邻居节点,以该点为初始状态,以适当的随机游动累积报酬的形式,将邻域内的资源聚合起来计算,采用递归的思想求中心节点的综合访问能力值,如下:
Figure BDA0002585066100000254
其中,γ为相邻节点的相对权重,P为转移概率矩阵,P为一个|N|×|N|矩阵,定义如下:
Figure BDA0002585066100000255
P是一个随机矩阵,所有的行的总和为1,以矩阵形式重写
Figure BDA0002585066100000256
Vγ-(1-γ)Re s+γPVγ
其中Re s=(Re s(1),Re s(2),...Re s(|N|))T,并且Vγ=(Vγ(1),Vγ(2),...,Vγ(|N|))T,递归等式
Figure BDA0002585066100000257
可以看做是折现因子为γ的折现奖励的Bellman方程,节点集N上转移概率矩阵为P的马尔科夫链,Re w=(Re w(1),Re w(2),...Re w(|N|)),并且Re w(n)=(1-γ)Re s(n),n∈N,节点n的排名矩阵Vγ(n),是转移概率为P的马尔科夫链的预期折扣累积奖励,即
Figure BDA0002585066100000261
其中n0,n1,n2,...表示采样路径,
Vγ为公式Vγ-(1-γ)Re s+γPVγ的唯一解,由于P是随机的,所以(1-γP),0≤γ≤1是可逆的,因此可以得出
Vγ=(1-γP)-1(1-γ)Re s
根据以上定义,节点的排名Vγ(n)越高,该节点及其附近的访问能力值越高,折扣因子γ是对邻域大小的度量,在确定节点度量时要加以考虑,γ=0时仅考虑本节点资源,而随着γ的增加,在矩阵中靠近节点的拓扑图部分占比越来越大;
Step4:归一化
为消除节点聚集系数与节点访问能力值的量纲,分别对其进行归一化处理,如下:
对聚集系数归一化处理:
Figure BDA0002585066100000262
对节点资源承载能力归一化处理:
Figure BDA0002585066100000263
S313:求节点能力参数
考虑节点在拓扑结构图中的聚集程度,以及访问能力的大小,将节点能力值量化如下:
θn=an′+αbn
其中,an′为归一化后的节点聚类系数,bn′为归一化后的节点访问能力,α为访问能力能力与节点聚类程度对节点能力参数的影响比重;
S32:正态双卵模型为节点分类
采用项目反应理论中的正态双卵模型判定节重要性程度为强的概率,为节点重要性程度的强弱进行分类,以便为不同类型的节点选取不同的备份策略:
Figure BDA0002585066100000264
其中,Q(θn)为对应节点被判定重要性程度为强的概率,Pi(θ)是能力为强节点对应的判断概率,qi(θ)是能力为弱节点的判断概率,
Figure BDA0002585066100000271
表示为正态双卵曲线的陡峭程度,以节点聚类系数的均值计算,
Figure BDA0002585066100000272
为偏置因子,以节点的访问能力的均值表示,θn为节点n的能力参数,为便于该模型中计算,使θn分布在[-2,2],因此对其进行数值范围调整如下:
Figure BDA0002585066100000273
Figure BDA0002585066100000274
将节点能力参数值θn调整至[-2,2]的区间上,设置阈值为r,即节点能力参数的平均值
Figure BDA0002585066100000275
作为初步能力强弱的区分,θn_max为n个节点中节点能力最大值,θn_min为最小值;
Figure BDA0002585066100000276
节点能力值分布,曲线对称中心记为(x0,y0),计算节点强弱的比例如下:
Figure BDA0002585066100000277
Figure BDA0002585066100000278
中,e值为在所有点中,能力较强的节点所占的比例,其经验值为15%—20%;
S4:处理重要性程度高的点
S41:多边形质心模型
比例集合B,根据距离选择相关的和最大尺寸的点来构建多边形,例如,对一个多边形,该算法从B的坐标为P(xi,yi)的i中选取N个点作为顶点,其中,i=1,2,3,...,N,其中N个点之一位于的原始轨迹,其他点在该点附近;
根据形成的多边形的定点计算多边形质心,公式如下:
Figure BDA0002585066100000279
其中,Pi(xk,yk)是第k个顶点的坐标,在第i_th个多边形中,Pi是第i_th个多边形的顶点数,而ji(x,y)是第i_th个多边形质心的坐标,
多边形质心形成为集合J,其中ji(x,y)∈J;
S42:根据拉普拉斯机制添加噪音
输入隐私保护等级ε和多边形质心集J,然后生成噪声
Figure BDA0002585066100000281
满足概率Pr(j(x,y),λ)使得:
Figure BDA0002585066100000282
其中,j(x,y)表示多边形质心与对应坐标,并且
Figure BDA0002585066100000283
向J中添加拉普拉斯噪声
Figure BDA0002585066100000284
Figure BDA0002585066100000285
其中,ji∈J,ji(x,y)代表第i个多边形的质心,
Figure BDA0002585066100000286
是每一轮的噪声,服从概率Pr(j(x,y),λ)。最后,该算法产能生了集合G;
适用修改后的多边形中心体G替换相应的保护节点f∈A,并且然后发布新的轨迹数据I′,
S43:建立位置搜索树
首先建立位置搜索树(LQ-Trie)上对数据假造,最后后置处理加噪的数据返回位置搜索树,发布噪声后的位置搜索树(LQ-Trie);
S44:基于指数机制遍历与提取位置搜索树
首先按层遍历
Figure BDA0002585066100000289
获得所有满足访问频率不小于min_Count的频繁模式记录集合A,然后通过指数机制在A中选取k个满足的频繁模式ai,该集合为B:
Figure BDA0002585066100000287
其中,Pr(ai)表示被选取的概率,ai·weight表示ai模式的权重,基于指数机制的选择算法步骤描述如下:
Step1:输入频繁模式记录集合A,给A的N个模式记录ai打分,设置为:
Mark(A,ai)=Q(ai)
其中,Q(ai)表示ai模式的访问频率;
Step2:计算每个模式记录的权重:
Figure BDA0002585066100000288
并按降序排列;
Step3:从集合A中以概率
Figure BDA0002585066100000291
选取k个频繁模式记录ai,该集合为B;
上述指数机制完成选择,而指数机制的关键是打分函数的设置,设置打分函数为Mark(A,ai)=Q(ai)(设Q(ai)为访问频率)每个模式记录的权重为:
Figure BDA0002585066100000292
其中,ε1表示选取k个模式所分配的隐私预算,Mark(A,ai)表示ai的打分值,ΔMark计算如下式所示:
Figure BDA0002585066100000293
ΔMark表示N个数据记录模式中的访问频率之差的最大值,
根据上式计算出加噪的集合E,最后根据集合E发布加噪后的位置搜索树
Figure BDA0002585066100000294
具体的,步骤S43中,LQ-Trie=DPK的算法步骤为:
Step1:输入数据集D和差分隐私保护参数ε1,ε2,k,min_count,ε=ε12
Step2:根据数据集D和项目集I,构造多级查询树
Figure BDA0002585066100000295
Step3:从
Figure BDA0002585066100000296
中获取访问频率项集合A,满足在集合A中每个数据的访问次数不低于min_count;
Step4:使用指数机制从集合A中选择访问频率项B,其中每个选择的数据记录都满足以下条件:
Figure BDA0002585066100000297
其中,B的大小为k,ai∈A为访问频率项记录,εi为相应的的隐私保护等级,Rank(A,ai)为ai的评分值,ΔRank为评分函数灵敏度;
Step5:使用拉普拉斯机制向集合B中添加噪声
Figure BDA0002585066100000298
得到集合C,并且根据C和A构造并发布新的多集查询树;
S5:拟合轨迹长度的分布
将观察到的行程长度视为直方图,考虑多个不同形状的已知分布,如均匀分布、指数分布和泊松分布,作为捕获直方图的候选分布,候选分布有一个共同的特点,它们的参数直接关系到汇总统计量,而汇总统计量可以从中得到,例如,泊松分布有一个值为平均长度的参数,而指数分布的参数与中位数长度med有这样的关系;可以使用拉普拉斯和指数机制私下获取平均值和中位数等统计信息,将其分解成一个噪声总和除以一个噪声总数的形式,来获得一个私有的均值,其中拉普拉斯机制用于注入噪声;私有中位数可以使用Cormode等人对指数的修改来获取;这个机制返回的是有噪声的中位数x,而不是实际中的中位数,这里q意为,当x接近实际的中位数,那么它的rank将与实际中位数的rank相近,因此,每个候选人的分数都会受到rank偏离的程度的负影响;
在构建了上述多个候选分布之后,选择一个作为最合适的分布,将其存储在AdaTrace的内存中,并删除其余的分布,使用拟合优度检验来确定哪个分布是最佳拟合,使用检验统计量的值,由于其差分隐私应用;
轨迹综合算法
AdaTrace的综合算法结合了四个功能:密度感知网格A,移动性模型Π
(Dreal),行程分布R和每次旅行的分布的长度集合L,它的输出基于合成轨迹;
算法:Trajectorysynthesisalgorithm
Input:网格A,形成分布R,可移动模型Π,长度分布L
Output:候选合成轨迹Tsyn
从R的pmf里随机选取一个样本Cstart→Cend
对于路线Cstart→Cend,从L中得到拟合的概率分布PD
从PD中挑选一个随机样本
将Tsyn使用Tsyn[1]=Cstart和Tsyn[l]=Cend初始化
fori=2tol-1do
for Ccand∈A do
从Π中重新得到:
w1=Pr(T[i]=Ccand|T[i]...T[i-1])和
w2=Pr(T[l]=Cend|T[i]...T[i-1]Ccand)
将Ccand的权重设置为w1·w2
end
来自A的样本Cchosen,其概率与上面计算的去权重成正比
设置Tsyn[i]=Cchosen
end
返回Tsyn
首先,通过根据形成分布进行采样来确定合成轨迹的起点和终点,其次,从中的适当路径长度分布L中取样的长度,第三,将初始化,并将第一个位置作为形成的起始单元格,最后一个位置作为形成的目的单元格,第四,给定的两个端点,在移动性模型上采用随机游走找到中间位置,当考虑网络A的单元格作为候选,确定的第i个位置时,将为每个候选对象分配一个权重,该权重由表示为和的两个子权重组成,进行回溯,并找到下一个位置是的概率,就像马尔科夫假设的应用一样,同时,进行前向查找,并找到当前位置是时,而最终位置为的概率,这是一个-步的传输概率,是使用1步传输概率的组合计算出来的为了提高效率,在学习之后预先计算了多步转换概率,因此对于不同的不重复相同的计算;
上面的伪代码为定义确定起点和终点之间的单次行程轨迹,其中,每个用户的中的GPS记录对应于短期旅行,例如Uber或出租车,但是,如果是长时间(例如几天)收集的,则用户的记录可能包含多次行程记录,在这种情况下,每个用户可以多次运行合成算法,并且下一个轨迹的起始位置等于上一个轨迹的最后已知位置,接着将这些轨迹连接在一起,以形成具有所需行程次数的用户最终GPS记录;
S6:以马尔科夫链进行新轨迹的生成
使用Markov链进行移动性建模,r阶的马尔科夫链表示为轨迹中的下一个位置取决于先前r阶的位置,而不是先前所有的位置,基于网络的离散化建立离散状态的马尔科夫链,将自适应网格中的每个单元格看做马尔科夫链中的一个状态,假设每个轨迹表示为一个按时间顺序排列的单元格序列,并由T[j]表示轨迹T中的第j条,写出T到具有下一个单元格的转移概率,观察其先前的n个位置:
trajectory-specific流动模型,每个概率,是trajectory-specific模型捕获单个用户的移动性模型,以表示;
归结为含的序列与的序列之比,特定轨迹的移动性模型是每个概率的集合,捕获了中单个用户的移动性,接着通过对彼此的各个移动性模型求平均,来找到整个的聚合移动性模型;
类似于网格构建过程中的噪声添加模型也受到拉普拉斯噪声的扰动,以满足差分隐私,将噪声添加到马尔可夫概率中,使得马尔可夫概率以序列计数的比来计算,并认为敏感度等于1,所需的噪声数量有限,因此,可以保持对噪声的鲁棒性;
S7:对抗网络
S71:对抗网络建模
继Goodfellow等,进一步定义了一个鉴别器网络
Figure BDA0002585066100000311
将它与
Figure BDA0002585066100000312
交替进行优化,以解决对抗性最小——最大问题:
Figure BDA0002585066100000313
总体思想是,它允许训练生成模型G,其目的是欺骗区分鉴别器D,该鉴别器D被训练为区分高仿真轨迹数据和真实轨迹数据,通过这种方法,生成器可以学习创建和真实轨迹数据相似的结果,因此很难用D进行分类;
在深度生成网络G,其核心是B残差块,使用两个具有3×3小内核和64个特征轨迹数据的卷积层,然后使用归一化层和ParametricReLU作为激活函数,通过两个训练好了的子像素卷积层来提高输入图像的仿真率,为了从生成的SR轨迹样本中区分出真实的HR轨迹数据,训练了一个判别网络,使用LeakyReLU激活(α=0.2),并避免整个网络的最大池化问题,它包含8个卷积层,其卷积核的数量增加了3×3,与VGG网络一样,从64个核增加到512个核,增加了两倍,每当特征数量增加一倍时,将使用卷积来降低图像仿真率,通过生成的512个特征图,与两个密集层和一个最终的sigmoid激活函数,来获得样本分类的概率;
S72:感知损失函数
设计一个损失函数,评估在感知上的相关特征,将感知损失表示为内容损失
Figure BDA0002585066100000321
和对抗性损失的加权总和,如下:
Figure BDA0002585066100000322
其中,第一项为内容损失,第二项为对抗损失,一起组成感知损失基于VGG的内容损失;
S73:内容丢失
按轨迹数据计算的的MSE损失计算如下:
Figure BDA0002585066100000323
根据Simonyan和Zisserman中描述的与训练的19层VGG网络的ReLU激活层来定义VGG损失,用φi,j,j表示通过第j个卷积(激活后),在第i个最大池化层之前的特征图,然后将VGG损失定义为,重构轨迹数据
Figure BDA0002585066100000324
的特征表示与参考轨迹数据IHR之间的欧氏距离:
Figure BDA0002585066100000325
其中,Wi,j和Hi,j描述了VGG网络中各特征轨迹数据的维数;
S74:对抗损失
除了到目前为止描述的内容损失以外,还将GAN的生成成分添加到感知损失中,这使得网络更倾向于那些基于多种真是原始轨迹数据的解决方案,使得欺骗鉴别器网络,生成损失根据鉴别器
Figure BDA0002585066100000326
对所有训练样本的概率定义
Figure BDA0002585066100000327
为:
Figure BDA0002585066100000328
其中,
Figure BDA0002585066100000329
为重新生成轨迹数据,
Figure BDA00025850661000003210
为高仿真轨迹数据的概率,为了得到更好的梯度,最小化
Figure BDA00025850661000003211
而不是
Figure BDA00025850661000003212
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (9)

1.一种基于对抗网络的位置差分隐私保护方法,其特征在于,包括以下步骤:
S1:基于差分隐私机制的位置数据隐私保护;
S2:建立密度感知网络;
S3:定义点的重要性程度参数;
S4:处理重要性程度高的点;
S5:拟合轨迹长度的分布;
S6:以马尔科夫链进行新轨迹的生成;
S7:对抗网络。
2.根据权利要求1所述的一种基于对抗网络的位置差分隐私保护方法,其特征在于:所述步骤S1中,基于差分隐私机制的位置数据隐私保护的具体步骤为:
S11:差分隐私
存在两个相邻数据集D、D′和算法K,K(D)表示算法K在数据集D上的输出集合,O是算法K所有输出值的集合,若算法K在数据集D和D′上任意输出结果为满足下面不等式(1):
Pr[K(D)∈O]≤eε×Pr[K(D′)∈O]
则算法K满足ε差分隐私,ε称为差分隐私预算,ε的取值决定了保护效果,ε取值的大小与与保护效果成正比,与数据失真程度成反比,差分隐私以其严格的数学定义为隐私的评价提供了理论依据;
差分隐私实现机制包括:指数机制、拉普拉斯机制和高斯机制,其中,指数机制一般应用于非指数类数据,拉普拉斯机制和高斯机制适用于数值型数据的隐私保护;
S12:不确定图
给定图G=(V,E),G顶点上的不确定图是G′=(V,P),其中P:Vp→[0,1]是将概率分配给无序顶点对的函数,不确定图G′具有原始图G相同的顶点V,对于确定性图,我们可以假定所有边的概率等于1;
S13:邻近图
给定两个图G1=(V1,E1)和G2=(V2,E2),若在G1、G2中有
Figure FDA0002585066090000011
则称G1、G2为邻近图,由于V1=V2,只要
Figure FDA0002585066090000012
即E1和E2的汉明距离为1,我们就称G1、G2为邻近图,
S14:敏感度
给定一个函数f:G→G″,其中,G、G″具有相同的顶点集合,函数f的全局敏感度为:
Figure FDA0002585066090000013
其中,G1、G2是邻近图,G″为经过随机算法后的输出图,f是查询函数,表示对于G1、G2中的边ei,查询边ei是否存在于G1和G2中。
3.根据权利要求1所述的一种基于对抗网络的位置差分隐私保护方法,其特征在于:所述步骤S2中,建立密度感知网络的具体步骤为:
S21:密度感知网络的建立
使用具有密度自适应单元格粒度的网络,对于低密度区域,将放置较大的cell,对于高密度区域,将区域划分为更细粒度的较小单元,首先,放置一个N×N均匀的单元格层,这样顶层一共有N2个cell,用C1,C2,...,CN来表示,将轨迹用T来表示,路径总和T所经过的cell的数目为|T|,并统计每一个轨迹所占用的单元格下标,以及计算在每一个单元格Ci中,轨迹T所占用的长度,并将其标准化处理,即该单元格中标准化之后的访问次数:
Figure FDA0002585066090000021
其中,g是标准化之后的值,将g写为集合的形式:
Figure FDA0002585066090000022
ΔW=1,只需在每个g(Dreal,Ci)中添加Lap(1/ε1)即可获得加噪之后的
Figure FDA0002585066090000023
并且细分Ci,使得每个Ci由g(Dreal,Ci)进一步分为Mi×Mi的cell,Mi,即每个单元格划分为的小单元格的数目,其值以分段函数的形式来定义:
Figure FDA0002585066090000024
S22:双层网格行程的优化
网格A离散化为Ω(Dreal),以起始单元格Cstart和目标单元格Cend来表示一次行动的路线,如下所示:Cstart→Cend,令h(Cstart→Cend)为计算数据库Dreal中旅行次数Cstart→Cend的函数,并且h表示差分隐私,X为行程分布A×A的整个范围内的随机变量,则行程分布R的计算方式如下:
Figure FDA0002585066090000025
其中,R是一个概率质量函数,其项的总和为1,在两层网格的情况下,一个GPS位置由顶层和底层单元同时索引,可以使用约束推理,以提高准确性和一致性,采用Folloejng线性普通最小二乘(OLS)方法,用Ci表示网格最顶层的单元格,用Ci,j表示网格最底层的单元格,其中
Figure FDA0002585066090000026
在获得顶层行程数
Figure FDA0002585066090000027
时,使用预算θε3,在获底层的行程数
Figure FDA0002585066090000028
时,使用(1-θ)ε3,如果没有隐私干扰,使用无噪声计数h代替
Figure FDA0002585066090000029
即h(Ci→Cj),h(Ci→Cj)=∑klh(Ci,k→Cj,l),在随机干扰每个h后,此值可能不成立,为了重新建立一致性,并最大程度地减少噪声影响,使满足给定
Figure FDA0002585066090000031
的噪声值,可以获得优化的行程路径,记为
Figure FDA0002585066090000032
表示为:
Figure FDA0002585066090000033
在优化底层计数时,上面计算出的优化顶层计数中的差异平均分布在底层单元中:
Figure FDA0002585066090000034
最后,在R的定义中使用优化的行程计数
Figure FDA0002585066090000035
代替
Figure FDA0002585066090000036
4.根据权利要求1所述的一种基于对抗网络的位置差分隐私保护方法,其特征在于:所述步骤S3中,定义点的重要性程度参数的具体步骤为:
S31:定义节点的聚类系数和访问能力参数
S311:求节点的聚类系数
Figure FDA0002585066090000037
意为相邻节点的度的总和除以相邻节点数,Mn为相邻节点,N为相邻节点数;
S312:求节点的综合访问能力值
Step1:定义节点访问能力值
以中心节点为研究对象,将其抽象为星型拓扑图,以中心节点的计算资源乘以其相邻节点间距离值的总和,来计算中心节点的综合访问频率大小值,
Figure FDA0002585066090000038
其中,C(n)为该中心节点的访问频率,B(n,m)为n,m两点间的路径长度,因一条链路为两端两个节点共用,因此计算路径长度值时需除以2;
Step2:标准化
Figure FDA0002585066090000039
其中,以中心节点的访问能力值分别依次除以相邻节点访问能力值,将结果存储在矩阵Res中,即Res=(Res(1),Res(2),...,Res(N))T
Step3:定义节点综合访问能力值
bn以马尔科夫随机游走模型计算,同时考虑该点与其邻居节点,以该点为初始状态,以适当的随机游动累积报酬的形式,将邻域内的资源聚合起来计算,采用递归的思想求中心节点的综合访问能力值,如下:
Figure FDA0002585066090000041
其中,γ为相邻节点的相对权重,P为转移概率矩阵,P为一个|N|×|N|矩阵,定义如下:
Figure FDA0002585066090000042
P是一个随机矩阵,所有的行的总和为1,以矩阵形式重写
Figure FDA0002585066090000043
为Vγ-(1-γ)Res+γPVγ
其中Res=(Res(1),Res(2),...Res(|N|))T,并且Vγ=(Vγ(1),Vγ(2),...,Vγ(|N|))T,递归等式
Figure FDA0002585066090000044
可以看做是折现因子为γ的折现奖励的Bellman方程,节点集N上转移概率矩阵为P的马尔科夫链,Rew=(Rew(1),Rew(2),...Rew(|N|)),并且Rew(n)=(1-γ)Res(n),n∈N,节点n的排名矩阵Vγ(n),是转移概率为P的马尔科夫链的预期折扣累积奖励,即
Figure FDA0002585066090000045
其中n0,n1,n2,...表示采样路径,
Vγ为公式Vγ-(1-γ)Res+γPVγ的唯一解,由于P是随机的,所以(1-γP),0≤γ≤1是可逆的,因此可以得出
Vγ=(1-γP)-1(1-γ)Res
根据以上定义,节点的排名Vγ(n)越高,该节点及其附近的访问能力值越高,折扣因子γ是对邻域大小的度量,在确定节点度量时要加以考虑,γ=0时仅考虑本节点资源,而随着γ的增加,在矩阵中靠近节点的拓扑图部分占比越来越大;
Step4:归一化
为消除节点聚集系数与节点访问能力值的量纲,分别对其进行归一化处理,如下:
对聚集系数归一化处理:
Figure FDA0002585066090000046
对节点资源承载能力归一化处理:
Figure FDA0002585066090000051
S313:求节点能力参数
考虑节点在拓扑结构图中的聚集程度,以及访问能力的大小,将节点能力值量化如下:
θn=an′+αbn
其中,an′为归一化后的节点聚类系数,bn′为归一化后的节点访问能力,α为访问能力能力与节点聚类程度对节点能力参数的影响比重;
S32:正态双卵模型为节点分类
采用项目反应理论中的正态双卵模型判定节重要性程度为强的概率,为节点重要性程度的强弱进行分类,以便为不同类型的节点选取不同的备份策略:
Figure FDA0002585066090000052
其中,Q(θn)为对应节点被判定重要性程度为强的概率,Pi(θ)是能力为强节点对应的判断概率,qi(θ)是能力为弱节点的判断概率,
Figure FDA0002585066090000053
表示为正态双卵曲线的陡峭程度,以节点聚类系数的均值计算,
Figure FDA0002585066090000054
为偏置因子,以节点的访问能力的均值表示,θn为节点n的能力参数,为便于该模型中计算,使θn分布在[-2,2],因此对其进行数值范围调整如下:
Figure FDA0002585066090000055
Figure FDA0002585066090000056
将节点能力参数值θn调整至[-2,2]的区间上,设置阈值为r,即节点能力参数的平均值
Figure FDA0002585066090000057
作为初步能力强弱的区分,θn_max为n个节点中节点能力最大值,θn_min为最小值;
Figure FDA0002585066090000058
节点能力值分布,曲线对称中心记为(x0,y0),计算节点强弱的比例如下:
Figure FDA0002585066090000059
Figure FDA0002585066090000061
中,e值为在所有点中,能力较强的节点所占的比例,其经验值为15%—20%。
5.根据权利要求1所述的一种基于对抗网络的位置差分隐私保护方法,其特征在于:所述步骤S4中,处理重要性程度高的点的具体步骤为:
S41:多边形质心模型
比例集合B,根据距离选择相关的和最大尺寸的点来构建多边形,例如,对一个多边形,该算法从B的坐标为P(xi,yi)的i中选取N个点作为顶点,其中,i=1,2,3,...,N,其中N个点之一位于的原始轨迹,其他点在该点附近;
根据形成的多边形的定点计算多边形质心,公式如下:
Figure FDA0002585066090000062
其中,Pi(xk,yk)是第k个顶点的坐标,在第i_th个多边形中,Pi是第i_th个多边形的顶点数,而ji(x,y)是第i_th个多边形质心的坐标,
多边形质心形成为集合J,其中ji(x,y)∈J;
S42:根据拉普拉斯机制添加噪音
输入隐私保护等级ε和多边形质心集J,然后生成噪声
Figure FDA0002585066090000063
满足概率Pr(j(x,y),λ)使得:
Figure FDA0002585066090000064
其中,j(x,y)表示多边形质心与对应坐标,并且
Figure FDA0002585066090000065
向J中添加拉普拉斯噪声
Figure FDA0002585066090000066
Figure FDA0002585066090000067
其中,ji∈J,ji(x,y)代表第i个多边形的质心,
Figure FDA0002585066090000068
是每一轮的噪声,服从概率Pr(j(x,y),λ)。最后,该算法产能生了集合G;
适用修改后的多边形中心体G替换相应的保护节点f∈A,并且然后发布新的轨迹数据I′,
S43:建立位置搜索树
首先建立位置搜索树(LQ-Trie)上对数据假造,最后后置处理加噪的数据返回位置搜索树,发布噪声后的位置搜索树(LQ-Trie);
S44:基于指数机制遍历与提取位置搜索树
首先按层遍历
Figure FDA0002585066090000071
获得所有满足访问频率不小于min_Count的频繁模式记录集合A,然后通过指数机制在A中选取k个满足的频繁模式ai,该集合为B:
Figure FDA0002585066090000072
其中,Pr(ai)表示被选取的概率,ai·weight表示ai模式的权重,基于指数机制的选择算法步骤描述如下:
Step1:输入频繁模式记录集合A,给A的N个模式记录ai打分,设置为:
Mark(A,ai)=Q(ai)
其中,Q(ai)表示ai模式的访问频率;
Step2:计算每个模式记录的权重:
Figure FDA0002585066090000073
并按降序排列;
Step3:从集合A中以概率
Figure FDA0002585066090000074
选取k个频繁模式记录ai,该集合为B;
上述指数机制完成选择,而指数机制的关键是打分函数的设置,设置打分函数为Mark(A,ai)=Q(ai)(设Q(ai)为访问频率),每个模式记录的权重为:
Figure FDA0002585066090000075
其中,ε1表示选取k个模式所分配的隐私预算,Mark(A,ai)表示ai的打分值,ΔMark计算如下式所示:
Figure FDA0002585066090000076
ΔMark表示N个数据记录模式中的访问频率之差的最大值,
根据上式计算出加噪的集合E,最后根据集合E发布加噪后的位置搜索树
Figure FDA0002585066090000077
6.根据权利要求5所述的一种基于对抗网络的位置差分隐私保护方法,其特征在于:所述步骤S43中,LQ-Trie=DPK的算法步骤为:
Step1:输入数据集D和差分隐私保护参数ε1,ε2,k,min_count,ε=ε12
Step2:根据数据集D和项目集I,构造多级查询树
Figure FDA0002585066090000078
Step3:从
Figure FDA0002585066090000079
中获取访问频率项集合A,满足在集合A中每个数据的访问次数不低于min_count;
Step4:使用指数机制从集合A中选择访问频率项B,其中每个选择的数据记录都满足以下条件:
Figure FDA0002585066090000081
其中,B的大小为k,ai∈A为访问频率项记录,εi为相应的的隐私保护等级,Rank(A,ai)为ai的评分值,ΔRank为评分函数灵敏度;
Step5:使用拉普拉斯机制向集合B中添加噪声
Figure FDA0002585066090000082
得到集合C,并且根据C和A构造并发布新的多集查询树。
7.根据权利要求1所述的一种基于对抗网络的位置差分隐私保护方法,其特征在于:所述步骤S5中,拟合轨迹长度的分布的具体步骤为:
将观察到的行程长度视为直方图,考虑多个不同形状的已知分布,如均匀分布、指数分布和泊松分布,作为捕获直方图的候选分布,候选分布有一个共同的特点,它们的参数直接关系到汇总统计量,而汇总统计量可以从中得到,例如,泊松分布有一个值为平均长度的参数,而指数分布的参数与中位数长度med有这样的关系;可以使用拉普拉斯和指数机制私下获取平均值和中位数等统计信息,将其分解成一个噪声总和除以一个噪声总数的形式,来获得一个私有的均值,其中拉普拉斯机制用于注入噪声;私有中位数可以使用Cormode等人对指数的修改来获取;这个机制返回的是有噪声的中位数x,而不是实际中的中位数,这里q意为,当x接近实际的中位数,那么它的rank将与实际中位数的rank相近,因此,每个候选人的分数都会受到rank偏离的程度的负影响;
在构建了上述多个候选分布之后,选择一个作为最合适的分布,将其存储在AdaTrace的内存中,并删除其余的分布,使用拟合优度检验来确定哪个分布是最佳拟合,使用检验统计量的值,由于其差分隐私应用;
轨迹综合算法
AdaTrace的综合算法结合了四个功能:密度感知网格A,移动性模型Π(Dreal),行程分布R和每次旅行的分布的长度集合L,它的输出基于合成轨迹;
算法:Trajectorysynthesisalgorithm
Input:网格A,形成分布R,可移动模型Π,长度分布L
Output:候选合成轨迹Tsyn
从R的pmf里随机选取一个样本Cstart→Cend
对于路线Cstart→Cend,从L中得到拟合的概率分布PD
从PD中挑选一个随机样本
将Tsyn使用Tsyn[1]=Cstart和Tsyn[l]=Cend初始化
fori=2tol-1do
forCcand∈Ado
从Π中重新得到:
w1=Pr(T[i]=Ccand|T[i]...T[i-1])和
w2=Pr(T[l]=Cend|T[i]...T[i-1]Ccand)
将Ccand的权重设置为w1·w2
end
来自A的样本Cchosen,其概率与上面计算的去权重成正比
设置Tsyn[i]=Cchosen
end
返回Tsyn
首先,通过根据形成分布进行采样来确定合成轨迹的起点和终点,其次,从中的适当路径长度分布L中取样的长度,第三,将初始化,并将第一个位置作为形成的起始单元格,最后一个位置作为形成的目的单元格,第四,给定的两个端点,在移动性模型上采用随机游走找到中间位置,当考虑网络A的单元格作为候选,确定的第i个位置时,将为每个候选对象分配一个权重,该权重由表示为和的两个子权重组成,进行回溯,并找到下一个位置是的概率,就像马尔科夫假设的应用一样,同时,进行前向查找,并找到当前位置是时,而最终位置为的概率,这是一个-步的传输概率,是使用1步传输概率的组合计算出来的为了提高效率,在学习之后预先计算了多步转换概率,因此对于不同的不重复相同的计算;
上面的伪代码为定义确定起点和终点之间的单次行程轨迹,其中,每个用户的中的GPS记录对应于短期旅行,例如Uber或出租车,但是,如果是长时间(例如几天)收集的,则用户的记录可能包含多次行程记录,在这种情况下,每个用户可以多次运行合成算法,并且下一个轨迹的起始位置等于上一个轨迹的最后已知位置,接着将这些轨迹连接在一起,以形成具有所需行程次数的用户最终GPS记录。
8.根据权利要求1所述的一种基于对抗网络的位置差分隐私保护方法,其特征在于:所述步骤S6中,以马尔科夫链进行新轨迹的生成的具体步骤为:
使用Markov链进行移动性建模,r阶的马尔科夫链表示为轨迹中的下一个位置取决于先前r阶的位置,而不是先前所有的位置,基于网络的离散化建立离散状态的马尔科夫链,将自适应网格中的每个单元格看做马尔科夫链中的一个状态,假设每个轨迹表示为一个按时间顺序排列的单元格序列,并由T[j]表示轨迹T中的第j条,写出T到具有下一个单元格的转移概率,观察其先前的n个位置:
Pr(T[n+1]=Cnext|T[1]...T[n])
=Pr(T[n+1]=Cnext|T[n-r+1]T[n-r+2]...T[n])
trajectory-specific流动模型,每个概率Π(T),T[n-r+1]T[n-r+2]...T[n]是trajectory-specific模型捕获单个用户的移动性模型,以Π(Dreal)表示;
归结为含T[n-r+1]T[n-r+2]...T[n]Cnext的序列与T[n-r+1]T[n-r+2]...T[n]的序列之比,特定轨迹的移动性模型Π(T)是每个概率Pr(T[n+1]|T[1]...T[n])的集合,捕获了Dreal中单个用户的移动性,接着通过对彼此的各个移动性模型求平均,来找到整个Dreal的聚合移动性模型;
类似于网格构建过程中的噪声添加模型Π(Dreal)也受到拉普拉斯噪声的扰动,以满足差分隐私,将噪声添加到马尔可夫概率中,使得马尔可夫概率以序列计数的比来计算,并认为敏感度等于1,所需的噪声数量有限,因此,Π(Dreal)可以保持对噪声的鲁棒性。
9.根据权利要求1所述的一种基于对抗网络的位置差分隐私保护方法,其特征在于:所述步骤S7中,对抗网络的具体步骤为:
S71:对抗网络建模
继Goodfellow等,进一步定义了一个鉴别器网络
Figure FDA0002585066090000101
将它与
Figure FDA0002585066090000102
交替进行优化,以解决对抗性最小——最大问题:
Figure FDA0002585066090000103
总体思想是,它允许训练生成模型G,其目的是欺骗区分鉴别器D,该鉴别器D被训练为区分高仿真轨迹数据和真实轨迹数据,通过这种方法,生成器可以学习创建和真实轨迹数据相似的结果,因此很难用D进行分类;
在深度生成网络G,其核心是B残差块,使用两个具有3×3小内核和64个特征轨迹数据的卷积层,然后使用归一化层和ParametricReLU作为激活函数,通过两个训练好了的子像素卷积层来提高输入图像的仿真率,为了从生成的SR轨迹样本中区分出真实的HR轨迹数据,训练了一个判别网络,使用LeakyReLU激活(α=0.2),并避免整个网络的最大池化问题,它包含8个卷积层,其卷积核的数量增加了3×3,与VGG网络一样,从64个核增加到512个核,增加了两倍,每当特征数量增加一倍时,将使用卷积来降低图像仿真率,通过生成的512个特征图,与两个密集层和一个最终的sigmoid激活函数,来获得样本分类的概率;
S72:感知损失函数
设计一个损失函数,评估在感知上的相关特征,将感知损失表示为内容损失
Figure FDA0002585066090000104
和对抗性损失的加权总和,如下:
Figure FDA0002585066090000105
其中,第一项为内容损失,第二项为对抗损失,一起组成感知损失基于VGG的内容损失;
S73:内容丢失
按轨迹数据计算的的MSE损失计算如下:
Figure FDA0002585066090000111
根据Simonyan和Zisserman中描述的与训练的19层VGG网络的ReLU激活层来定义VGG损失,用φi,j,j表示通过第j个卷积(激活后),在第i个最大池化层之前的特征图,然后将VGG损失定义为,重构轨迹数据
Figure FDA0002585066090000112
的特征表示与参考轨迹数据IHR之间的欧氏距离:
Figure FDA0002585066090000113
其中,Wi,j和Hi,j描述了VGG网络中各特征轨迹数据的维数;
S74:对抗损失
除了到目前为止描述的内容损失以外,还将GAN的生成成分添加到感知损失中,这使得网络更倾向于那些基于多种真是原始轨迹数据的解决方案,使得欺骗鉴别器网络,生成损失根据鉴别器
Figure FDA0002585066090000114
对所有训练样本的概率定义
Figure FDA0002585066090000115
为:
Figure FDA0002585066090000116
其中,
Figure FDA0002585066090000117
为重新生成轨迹数据,
Figure FDA0002585066090000118
为高仿真轨迹数据的概率,为了得到更好的梯度,最小化
Figure FDA0002585066090000119
而不是
Figure FDA00025850660900001110
CN202010678689.9A 2020-07-15 2020-07-15 一种基于对抗网络的位置差分隐私保护方法 Pending CN112001415A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010678689.9A CN112001415A (zh) 2020-07-15 2020-07-15 一种基于对抗网络的位置差分隐私保护方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010678689.9A CN112001415A (zh) 2020-07-15 2020-07-15 一种基于对抗网络的位置差分隐私保护方法

Publications (1)

Publication Number Publication Date
CN112001415A true CN112001415A (zh) 2020-11-27

Family

ID=73466625

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010678689.9A Pending CN112001415A (zh) 2020-07-15 2020-07-15 一种基于对抗网络的位置差分隐私保护方法

Country Status (1)

Country Link
CN (1) CN112001415A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112487992A (zh) * 2020-12-02 2021-03-12 重庆邮电大学 一种基于流模型的人脸情绪图像的生成方法及设备
CN113254927A (zh) * 2021-05-28 2021-08-13 浙江工业大学 一种基于网络防御的模型处理方法、装置及存储介质
CN113282961A (zh) * 2021-07-22 2021-08-20 武汉中原电子信息有限公司 一种基于电网数据采集的数据脱敏方法及系统
CN114065287A (zh) * 2021-11-18 2022-02-18 南京航空航天大学 一种抗预测攻击的轨迹差分隐私保护方法和系统
CN114091100A (zh) * 2021-11-23 2022-02-25 北京邮电大学 一种满足本地差分隐私的轨迹数据收集方法及系统
CN115114381A (zh) * 2022-06-22 2022-09-27 广州大学 一种面向本地化差分隐私的图统计分析方法
WO2022199274A1 (en) * 2021-03-24 2022-09-29 International Business Machines Corporation Defending against adversarial queries in a data governance system
CN116956349A (zh) * 2023-07-29 2023-10-27 哈尔滨理工大学 一种基于时间依赖路网中的k近邻隐私保护查询方法
CN117892357A (zh) * 2024-03-15 2024-04-16 大连优冠网络科技有限责任公司 基于差分隐私防护的能源大数据共享分发风险控制方法
CN117892357B (zh) * 2024-03-15 2024-05-31 国网河南省电力公司经济技术研究院 基于差分隐私防护的能源大数据共享分发风险控制方法

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112487992B (zh) * 2020-12-02 2022-07-22 重庆邮电大学 一种基于流模型的人脸情绪图像的生成方法及设备
CN112487992A (zh) * 2020-12-02 2021-03-12 重庆邮电大学 一种基于流模型的人脸情绪图像的生成方法及设备
WO2022199274A1 (en) * 2021-03-24 2022-09-29 International Business Machines Corporation Defending against adversarial queries in a data governance system
CN113254927A (zh) * 2021-05-28 2021-08-13 浙江工业大学 一种基于网络防御的模型处理方法、装置及存储介质
CN113254927B (zh) * 2021-05-28 2022-05-17 浙江工业大学 一种基于网络防御的模型处理方法、装置及存储介质
CN113282961A (zh) * 2021-07-22 2021-08-20 武汉中原电子信息有限公司 一种基于电网数据采集的数据脱敏方法及系统
CN114065287A (zh) * 2021-11-18 2022-02-18 南京航空航天大学 一种抗预测攻击的轨迹差分隐私保护方法和系统
CN114065287B (zh) * 2021-11-18 2024-05-07 南京航空航天大学 一种抗预测攻击的轨迹差分隐私保护方法和系统
CN114091100A (zh) * 2021-11-23 2022-02-25 北京邮电大学 一种满足本地差分隐私的轨迹数据收集方法及系统
CN114091100B (zh) * 2021-11-23 2024-05-03 北京邮电大学 一种满足本地差分隐私的轨迹数据收集方法及系统
CN115114381A (zh) * 2022-06-22 2022-09-27 广州大学 一种面向本地化差分隐私的图统计分析方法
CN116956349A (zh) * 2023-07-29 2023-10-27 哈尔滨理工大学 一种基于时间依赖路网中的k近邻隐私保护查询方法
CN116956349B (zh) * 2023-07-29 2024-03-19 哈尔滨理工大学 一种基于时间依赖路网中的k近邻隐私保护查询方法
CN117892357A (zh) * 2024-03-15 2024-04-16 大连优冠网络科技有限责任公司 基于差分隐私防护的能源大数据共享分发风险控制方法
CN117892357B (zh) * 2024-03-15 2024-05-31 国网河南省电力公司经济技术研究院 基于差分隐私防护的能源大数据共享分发风险控制方法

Similar Documents

Publication Publication Date Title
CN112001415A (zh) 一种基于对抗网络的位置差分隐私保护方法
Flaxman et al. Scalable high-resolution forecasting of sparse spatiotemporal events with kernel methods: a winning solution to the NIJ “Real-Time Crime Forecasting Challenge”
Kollman et al. Political parties and electoral landscapes
Ayvaz Simultaneous determination of aquifer parameters and zone structures with fuzzy c-means clustering and meta-heuristic harmony search algorithm
CN106156941B (zh) 一种用户信用评分优化方法和装置
Zheng et al. Radial basis function network configuration using mutual information and the orthogonal least squares algorithm
WO2022217839A1 (zh) 一种基于深度时空相似性的空气质量预测方法
Davis et al. Grids versus graphs: Partitioning space for improved taxi demand-supply forecasts
Chang et al. Applying a modified VIKOR method to classify land subdivisions according to watershed vulnerability
Barrera et al. A review of particle swarm optimization methods used for multimodal optimization
CN111313957B (zh) 基于分类多目标优化的混合卫星通信系统资源分配方法
CN107092798A (zh) 滑坡预测模型的稳定性评价方法及装置
CN107563220A (zh) 一种基于计算机的大数据分析控制系统及控制方法
CN104834987A (zh) 基于层次分析的量化决策方法及系统
Levashenko et al. Fuzzy classifier based on fuzzy decision tree
Ahani et al. A feature weighting and selection method for improving the homogeneity of regions in regionalization of watersheds
Gopakumar et al. Hydrologic data exploration and river flow forecasting of a humid tropical river basin using artificial neural networks
Li et al. Dealing with missing data: Algorithms based on fuzzy set and rough set theories
Sadi et al. Community detection using ant colony optimization techniques
Jafar et al. Hybrid fuzzy data clustering algorithm using different distance metrics: a comparative study
Shu et al. Link prediction based on 3D convolutional neural network
Rezaee et al. GPS: A graph-based approach to portfolio selection
CN113010803B (zh) 一种地理敏感动态社交环境下用户访问位置的预测方法
Kiss et al. Econometrics of Networks with Machine Learning
Deng et al. Geographic Boosting Tree: Modeling Non-Stationary Spatial Data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20201127