CN115033915A - 一种基于生成对抗网络的敏感标签轨迹数据差分隐私发布方法 - Google Patents
一种基于生成对抗网络的敏感标签轨迹数据差分隐私发布方法 Download PDFInfo
- Publication number
- CN115033915A CN115033915A CN202210629788.7A CN202210629788A CN115033915A CN 115033915 A CN115033915 A CN 115033915A CN 202210629788 A CN202210629788 A CN 202210629788A CN 115033915 A CN115033915 A CN 115033915A
- Authority
- CN
- China
- Prior art keywords
- track
- vertex
- points
- point
- privacy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 230000002159 abnormal effect Effects 0.000 claims abstract description 15
- 238000012549 training Methods 0.000 claims abstract description 13
- 238000013507 mapping Methods 0.000 claims description 24
- 230000008569 process Effects 0.000 claims description 19
- 238000013508 migration Methods 0.000 claims description 8
- 230000005012 migration Effects 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 5
- 230000007246 mechanism Effects 0.000 claims description 4
- 230000035945 sensitivity Effects 0.000 claims description 3
- 238000013461 design Methods 0.000 abstract description 3
- 238000010187 selection method Methods 0.000 abstract 1
- 230000007704 transition Effects 0.000 abstract 1
- 238000004364 calculation method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 238000013256 Gubra-Amylin NASH model Methods 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013506 data mapping Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000006386 neutralization reaction Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Bioethics (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于信息安全技术领域,提供了一种基于生成对抗网络的敏感标签轨迹数据差分隐私发布方法。首先确定出泄露用户敏感属性的敏感停止点,并且删除用户轨迹中的异常点。然后将停止点和敏感属性映射为顶点,将时空点间的迁移映射为边,建立了有向加权图。然后引入WGAN‑GP模型来训练隐私预算ε添加噪声实现差分隐私,并采用动态隐私预算分配和自适应裁剪阈值选择方法优化训练模型。最后通过遍历加噪后的图模型还原轨迹数据进行发布。本发明设通过图模型的设计同时对敏感标签和轨迹数据加噪,并且引入了GAN技术对隐私预算进行训练,在保证数据隐私性的前提下,提高了数据的可用性。
Description
技术领域
本发明涉及一种基于生成对抗网络的敏感标签轨迹数据差分隐私发布方法,属于信息安全技术领域。
背景技术
随着位置感知技术的发展,轨迹数据越来越容易被收集并应用到城市交通、移动医疗等方面,为用户提供更好的服务。但当轨迹数据与疾病、工作等属性一起收集时,往往包含大量的用户敏感信息,如果未对这些数据进行有效的隐私处理而直接发布,攻击者很容易发动背景知识攻击,探测用户隐私信息。为解决轨迹数据发布中存在的隐私泄露问题,差分隐私(Differential Privacy,DP)是目前用来防范发布过程中的隐私泄露的主要技术。DP作为一种拥有严格数学证明的隐私保护技术,与传统的匿名策略不同,采用隐私预算量化隐私保护程度,无论攻击者掌握多少先验背景知识,都无法侵犯数据隐私。数据集被满足差分隐私的算法保护后,改变数据集中任一一条的记录都不会显著改变算法的输出结果,从而使得攻击者无法推理出任何敏感信息。
现有的轨迹隐私保护方式主要分为基于分区和差分隐私两种。基于分区的保护方式在已知攻击者一定背景知识的情况下,进行方案设计;差分隐私无需考虑到攻击者背景知识,主要通过添加隐私预算兼容隐私性和可用性。基于分区的保护算法,主要通过k-匿名、l-多样性等模型保护轨迹数据,这些方法对隐私保护的程度需要考虑到攻击者的背景知识掌握情况,一旦攻击者所掌握的背景知识高于设定值,则无法保证隐私保护的效果。现有的差分隐私轨迹数据发布机制主要采用前缀树、匿名迁移等方法通过为轨迹数据整体添加噪音实现用户的隐私保护,但缺少对不同频率、不同敏感程度的轨迹点隐私预算分配问题的考虑,对所有轨迹数据添加统一的噪声,从而导致可用性较低。除此之外,现有的差分隐私方法通常只对轨迹数据进行匿名,而没有考虑敏感标签(敏感属性)的影响,同样导致数据的可用性较低。
发明内容
为了有效的提高轨迹数据发布机制的隐私性与可用性,本发明提出了一种基于生成对抗网络的敏感标签轨迹数据差分隐私发布方法,在保护轨迹数据隐私性的同时保证了数据的可用性。首先,通过图模型将敏感属性和轨迹点联系起来;然后,通过计算轨迹点的频率以及不同轨迹点间的迁移关系来判断轨迹点的重要性;最后,通过GAN为每个轨迹点和敏感属性训练合适的隐私预算,在保证隐私性的前提下尽可能提高数据可用性。
本发明的技术方案:
一种基于生成对抗网络的敏感标签轨迹数据差分隐私发布方法,步骤如下:
(1)轨迹数据T是按时间排序的一系列时空点,其形式如下:
T=(l1,t1)→(l2,t2)→…→(ln,tn)
其中,n为轨迹长度,ti表示时间,li表示位置,由经纬度确定,(li,ti)表示用户在ti时刻出于li位置;其中li是一个二维空间信息,表示为(xi,yi),其中xi表示经度,yi表示纬度;
标签轨迹数据R是由轨迹数据以及一个敏感属性标签的SA组成:
R=<(l1,t1)→(l2,t2)→…→(ln,tn),SA>
首先在原始轨迹数据集D中确定出可能泄露用户敏感属性的敏感停止点,并且删除用户轨迹中的异常点,获得处理后的轨迹数据集D′;
轨迹点的分类与保护,具体过程如下:
(1.1)当接收到用户的轨迹数据后,对序列上的轨迹点进行分类,主要分成停止点和异常点两类;
停止点主要考虑长停留点和徘徊点两种:
长停留点:指用户长时间停留在某一位置的情况,定义时间阈值θt,若用户在某一位置停留的时间长于θt,那么在该时间间隔内相应轨迹序列中的所有移动点均视为长停留点;对于原始轨迹数据集D中任一条轨迹数据T,如果li=lj=lk,且|tk-ti|>θt(i<j<k),则轨迹点(li,ti),(lk,tk),(lj,tj)被视为长停留点;
徘徊点:指用户在某一区域长时间徘徊的情况,定义距离阈值θd;如果用户在某个区域中徘徊,并且区域中任意两点间的欧式距离小于距离阈值θd,并且停留时间长于时间阈值θt,那么在该区域中的所有时空点都被视为徘徊点;对于原始轨迹数据集D中任一条轨迹数据T,若且|tk-ti|>θt(i<j<k),则轨迹点(li,ti),(lj,tj),(lk,tk)被视为徘徊点;
异常点被称为噪声点,指的是偏离正常用户轨迹的特殊轨迹点,设置距离阈值θd,如果某个时空点与前面时空点间的欧式距离大于距离阈值θd,则将该点视为异常点;对于轨迹数据集D中任一条轨迹数据T,若且j-i=1,那么轨迹点(lj,tj)被视为异常点;
(1.2)将轨迹序列中的轨迹点分类后,对不同类型的轨迹点进行隐私保护;针对长停留点的隐私保护,利用所有长停留点的位置以及时间中心形成一个新的时空点来代替所有的长停留点;针对徘徊点的隐私保护,利用徘徊区域的轨迹中心点以及徘徊点的时间中心,形成新的时空点来代替所有的徘徊点;针对异常点,将其从轨迹数据中删除;
(2)采用图模型映射算法,将停止点和敏感属性映射为顶点,将时空点间的迁移映射为边,建立有向加权图G,并对有向加权图中顶点添加拉普拉斯噪声;
图模型映射算法的具体过程如下:
(2.1)生成有向加权图,图顶点V包含头顶点和轨迹顶点两种;首先将步骤(1)处理后的轨迹数据集D′中的每种不同的SA值映射到有向加权图G的头顶点中,头顶点也作为图中每条边的起始点,头顶点的权重值为具有该SA值的轨迹的个数;然后,将寻找到的停止点映射到轨迹顶点中,轨迹顶点的权重值为该时空点在所有轨迹中出现的次数;有向加权图G中两个顶点vi和vj间的边表示原始轨迹数据集D中存在顶点vi到vj间的迁移,边的权重表示这种迁移出现的次数;头顶点与有向加权图G中第二个节点之间的边的权值为原始轨迹数据集D中以第一个轨迹点为开始点且敏感属性为头结点的轨迹数目;
(2.2)有向加权图G生成之后,对有向加权图G中每个节点v通过相邻顶点投票的方式确定隐私预算ε,具体方法如下:
其中,Nvi表示从步骤(2.1)中获取的顶点vi的权重,εvi是顶点vi的隐私预算,wvi表示vi和v之间的边权重;顶点vi通过自己的顶点权重Nvi和vi转换到邻居v的用户数量wvi进行权重设置来给邻居v投票,投票给邻居v的隐私预算为自身预算的因此从邻居v到顶点vi的投票结果是
然后,通过拉普拉斯机制为每个顶点添加噪声;采用的查询函数f=num(vi,D)返回值为每个顶点的权重值,针对该返回值的隐私保护,考虑两个只相差一条数据的相邻数据集D1和D2的敏感度为:
(3)在利用图模型映射算法对一条轨迹数据上的各节点设计好隐私预算分配后,利用GAN来训练隐私预算;使用WGAN-GP模型将获得的有向加权图作为真实样本,通过计算生成样本和真实样本间的Wasserstein距离来判断生成样本的可用性高低,通过训练过程为有向加权图G中的每个节点添加合适的隐私预算,同时采用针对梯度阈值的自适应阈值裁剪的方法,达到加快模型收敛,提高生成数据可用性的目的;WGAN-GP的具体过程如下:
(3.1)初始化生成器和判别器,生成器的初始输入为噪声,输出为隐私预算,判别器的真实样本为上一步骤中停止点映射后的有向加权图G;在判别器的每次更新中,先对步骤(1)处理后的轨迹数据集D’集中抽样,计算梯度并且进行梯度裁剪,选用一种动态取值方法计算梯度裁剪的阈值:每次迭代过程中取加噪后的梯度平均值作为裁剪阈值,即其中L为样本总数,||g(xi)||2为样本xi的梯度范数;
(3.2)结合标签轨迹的特点以及图模型映射算法生成器生成头结点的隐私预算,通过步骤(2.2)中的噪音添加方法,生成拉普拉斯噪声添加到有向加权图G中生成噪声图G’;
结合图模型映射算法,对于头结点的隐私预算分配问题,采用一种递增的动态隐私预算分配策略:随着模型的逐渐收敛,逐渐增加分配给每次迭代的隐私预算,从而增加数据的可用性,让算法模型更快的收敛;动态隐私预算分配以一个训练时期为单位周期性地更新,并保证在一个训练时期内所有迭代中总的隐私预算仍然保持不变;采用指数型预算分配方法:
εt=ε0ekt
其中,ε0为初始隐私预算,t为当前时期数,k是增长率、k>0;
(3.3)判别器接收生成器传输的生成样本后,根据损失函数判断生成样本的真假,更新判别器参数,根据噪声分布进行抽样并更新生成器参数;算法以对抗学习的形式循环迭代,直到累计隐私损失超过总隐私预算或迭代数时算法终止;
(4)对噪声图G′进行了两次遍历来生成轨迹数据,从而收集轨迹数据生成发布数据集D*,每次遍历过程中以头顶点为开始,遍历其他轨迹顶点,直到经过没有出边的顶点为止;生成轨迹时,每经过一个顶点,就将其对应的权值减1,而边的权值不变;算法详细介绍如下:
(4.1)根据步骤(1)中处理后的数据集D′中的每条轨迹T,寻找噪声图G′中是否存在一条相同的轨迹,如果存在并且轨迹中的每个顶点权重值不为0,那么将轨迹数据T添加到发布数据集D*中;但如果由于添加负噪声导致顶点权重减小,在轨迹生成过程中顶点权重如果为0,导致不存在该轨迹,即轨迹中存在轨迹点的缺失,那么将从轨迹数据T中删除该时空点,轨迹数据T中剩下时空点作为一条新的轨迹信息添加到发布数据集D*中;
(4.2)遍历完轨迹数据集D′后,噪声图G′中仍然可能有顶点的权重不为0,利用这些顶点之间的边关系来生成新的轨迹;设计一种启发式算法,即每次选择具有较大权值的顶点或者边来生成新的轨迹,首先从噪声图G′中剩下的节点选取权值最大的头顶点vi作为生成轨迹的SA值;然后,每次选择顶点vi的相连接边中权值最大且相邻顶点权重不为0的点作为轨迹的下一个点,并且将该顶点的权值减1,重复此操作直到某个所选顶点没有出边为止,便生成了一条轨迹;重复上述操作直至所有的顶点权重均为0。
本发明的有益效果:本发明设计了一种基于生成对抗网络的带敏感标签的差分隐私轨迹数据发布算法GDPGAN,通过图模型的设计同时对敏感标签和轨迹数据加噪,并且引入了GAN技术对隐私预算进行训练,在保证数据隐私性的前提下,提高了数据的可用性。
附图说明
图1为本发明所述的敏感标签轨迹数据发布整体结构图。
图2为本发明所述的轨迹点分类的流程图。
图3为本发明所述的图映射算法的流程图。
图4为本发明所述的训练隐私预算的流程图。
图5为本发明所述的匿名轨迹数据发布的流程图。
图6为噪声图G′加噪示例图。
具体实施方式
为了将本发明的目的,技术方案和优点表达的更清晰明了,接下来将通过实施例和附图,对本发明做进一步的详尽的说明。
一种基于生成对抗网络的敏感标签轨迹数据差分隐私发布方法,本方法包括确定敏感停止点和异常点、基于图模型的轨迹数据映射方法、基于GAN的隐私预算分配、基于图模型的数据发布。
参照图2,生成相邻路由器之间边的权重以及对路由器分组的具体运行过程如下:
步骤1.中心数据库收到查询请求,确定轨迹序列和时间阈值θt和距离阈值θd。
步骤2.中心数据库根据时间阈值和距离阈值,将轨迹点分为长停留点和徘徊点。
步骤3.如果轨迹点为长停留点,则统计时间阈值θt内的所有长停留点,并取长停留点集的中心作为新的轨迹点;如果轨迹点为徘徊点,则统计距离阈值内的所有徘徊点,并取徘徊点集的中心作为新的轨迹点。对于轨迹Ti=(l1,t1)→(l2,t2)→…→(lm,tm),其中Ti表示数据集中第i条轨迹,如果li=lj=lk,并且|tk-ti|>θt(i<j<k),在这种情况下,(li,ti),(lj,tj),(lk,tk)被认定为长停留点;如果并且|tk-ti|>θt(i<j<k),在这种情况下,(li,ti),(lj,tj),(lk,tk)被认定为徘徊点。
步骤4.
步骤5.将轨迹数据集中D'中的每种不同的SA值映射到图G,将包含相同SA值的轨迹个数设置为图G的头顶点权重。
步骤6.将长停留点和徘徊点映射到图的轨迹顶点中,并将该轨迹点的频数设置为轨迹顶点的权重。
步骤7.遍历轨迹数据集,生成节点vi和vj的边,并将原轨迹数据集中vi和vj节点的连接次数作为边权重。
步骤8.采用相邻顶点投票方式对轨迹顶点计算隐私预算,计算公式如下:
步骤9.依据隐私预算的计算结果,为每个轨迹顶点添加拉普拉斯噪声:
步骤10.将映射后的图输入到GAN中的生成器,将原始拉普拉斯噪声和隐私预算输入到判别器中,设置GAN模型超参数(迭代次数、梯度惩罚系数、增长率等)。
步骤11.初始化判别器参数w和生成器参数θ,使用GAN训练生成噪声。具体训练过程如下:
(1)根据模型预设的增长率和初始隐私预算,优化生成器中的隐私预算;
(2)从轨迹数据集中采样,并输入到判别器中;
(3)判别器根据采样结果计算梯度;
(4)利用图模型映射算法,对梯度添加噪声,并对梯度裁剪;
(5)更新判别器参数w;
(6)重复(2)~(5)过程,直至判别器迭代次数超过Td;
(7)从噪声中抽样并更新生成器参数θ;
(8)重复(1)、(6)、(7),直至生成器中的隐私预算大于ε0;
(9)输出噪声图。
步骤12.将步骤10获取的噪声图G'与轨迹数据集D'进行对比,对轨迹数据集D'中的每一条轨迹查看G'中是否存在相同轨迹,若存在且每个顶点权重不为0,增加该轨迹添加至轨迹数据集D*中;若不存在且顶点权重为0,则从原轨迹中删除该时空点,将剩下的轨迹序列作为新的轨迹信息添加至数据集D*中。
步骤13.利用噪声图G'中权重仍不为0的顶点生成新的轨迹,具体过程如下:
(1)选择权重最大的头顶点v作为生成轨迹的SA值;
(2)选取顶点v的相连邻居顶点中权重最大且不为0的点作为下一个点,并将改点的权值减1;
(3)重复(2)的操作,直至所选顶点没有出边。
步骤14.将步骤12生成的轨迹信息添加至数据集D*中并发布。
Claims (1)
1.一种基于生成对抗网络的敏感标签轨迹数据差分隐私发布方法,其特征在于,步骤如下:
(1)轨迹数据T是按时间排序的一系列时空点,其形式如下:
T=(l1,t1)→(l2,t2)→…→(ln,tn)
其中,n为轨迹长度,ti表示时间,li表示位置,由经纬度确定,(li,ti)表示用户在ti时刻出于li位置;其中li是一个二维空间信息,表示为(xi,yi),其中xi表示经度,yi表示纬度;
标签轨迹数据R是由轨迹数据以及一个敏感属性标签的SA组成:
R=<(l1,t1)→(l2,t2)→…→(ln,tn),SA>
首先在原始轨迹数据集D中确定出可能泄露用户敏感属性的敏感停止点,并且删除用户轨迹中的异常点,获得处理后的轨迹数据集D′;
轨迹点的分类与保护,具体过程如下:
(1.1)当接收到用户的轨迹数据后,对序列上的轨迹点进行分类,主要分成停止点和异常点两类;
停止点主要考虑长停留点和徘徊点两种:
长停留点:指用户长时间停留在某一位置的情况,定义时间阈值θt,若用户在某一位置停留的时间长于θt,那么在该时间间隔内相应轨迹序列中的所有移动点均视为长停留点;对于原始轨迹数据集D中任一条轨迹数据T,如果li=lj=lk,且|tk-ti|>θt(i<j<k),则轨迹点(li,ti),(lk,tk),(lj,tj)被视为长停留点;
徘徊点:指用户在某一区域长时间徘徊的情况,定义距离阈值θd;如果用户在某个区域中徘徊,并且区域中任意两点间的欧式距离小于距离阈值θd,并且停留时间长于时间阈值θt,那么在该区域中的所有时空点都被视为徘徊点;对于原始轨迹数据集D中任一条轨迹数据T,若且|tk-ti|>θt(i<j<k),则轨迹点(li,ti),(lj,tj),(lk,tk)被视为徘徊点;
异常点被称为噪声点,指的是偏离正常用户轨迹的特殊轨迹点,设置距离阈值θd,如果某个时空点与前面时空点间的欧式距离大于距离阈值θd,则将该点视为异常点;对于轨迹数据集D中任一条轨迹数据T,若且j-i=1,那么轨迹点(lj,tj)被视为异常点;
(1.2)将轨迹序列中的轨迹点分类后,对不同类型的轨迹点进行隐私保护;针对长停留点的隐私保护,利用所有长停留点的位置以及时间中心形成一个新的时空点来代替所有的长停留点;针对徘徊点的隐私保护,利用徘徊区域的轨迹中心点以及徘徊点的时间中心,形成新的时空点来代替所有的徘徊点;针对异常点,将其从轨迹数据中删除;
(2)采用图模型映射算法,将停止点和敏感属性映射为顶点,将时空点间的迁移映射为边,建立有向加权图G,并对有向加权图中顶点添加拉普拉斯噪声;
图模型映射算法的具体过程如下:
(2.1)生成有向加权图,图顶点V包含头顶点和轨迹顶点两种;首先将步骤(1)处理后的轨迹数据集D′中的每种不同的SA值映射到有向加权图G的头顶点中,头顶点也作为图中每条边的起始点,头顶点的权重值为具有该SA值的轨迹的个数;然后,将寻找到的停止点映射到轨迹顶点中,轨迹顶点的权重值为该时空点在所有轨迹中出现的次数;有向加权图G中两个顶点vi和vj间的边表示原始轨迹数据集D中存在顶点vi到vj间的迁移,边的权重表示这种迁移出现的次数;头顶点与有向加权图G中第二个节点之间的边的权值为原始轨迹数据集D中以第一个轨迹点为开始点且敏感属性为头结点的轨迹数目;
(2.2)有向加权图G生成之后,对有向加权图G中每个节点v通过相邻顶点投票的方式确定隐私预算ε,具体方法如下:
其中,Nvi表示从步骤(2.1)中获取的顶点vi的权重,εvi是顶点vi的隐私预算,wvi表示vi和v之间的边权重;顶点vi通过自己的顶点权重Nvi和vi转换到邻居v的用户数量wvi进行权重设置来给邻居v投票,投票给邻居v的隐私预算为自身预算的因此从邻居v到顶点vi的投票结果是
然后,通过拉普拉斯机制为每个顶点添加噪声;采用的查询函数f=num(vi,D)返回值为每个顶点的权重值,针对该返回值的隐私保护,考虑两个只相差一条数据的相邻数据集D1和D2的敏感度为:
(3)在利用图模型映射算法对一条轨迹数据上的各节点设计好隐私预算分配后,利用GAN来训练隐私预算;使用WGAN-GP模型将获得的有向加权图作为真实样本,通过计算生成样本和真实样本间的Wasserstein距离来判断生成样本的可用性高低,通过训练过程为有向加权图G中的每个节点添加合适的隐私预算,同时采用针对梯度阈值的自适应阈值裁剪的方法,达到加快模型收敛,提高生成数据可用性的目的;WGAN-GP的具体过程如下:
(3.1)初始化生成器和判别器,生成器的初始输入为噪声,输出为隐私预算,判别器的真实样本为上一步骤中停止点映射后的有向加权图G;在判别器的每次更新中,先对步骤(1)处理后的轨迹数据集D’集中抽样,计算梯度并且进行梯度裁剪,选用一种动态取值方法计算梯度裁剪的阈值:每次迭代过程中取加噪后的梯度平均值作为裁剪阈值,即其中L为样本总数,||g(xi)||2为样本xi的梯度范数;
(3.2)结合标签轨迹的特点以及图模型映射算法生成器生成头结点的隐私预算,通过步骤(2.2)中的噪音添加方法,生成拉普拉斯噪声添加到有向加权图G中生成噪声图G’;
结合图模型映射算法,对于头结点的隐私预算分配问题,采用一种递增的动态隐私预算分配策略:随着模型的逐渐收敛,逐渐增加分配给每次迭代的隐私预算,从而增加数据的可用性,让算法模型更快的收敛;动态隐私预算分配以一个训练时期为单位周期性地更新,并保证在一个训练时期内所有迭代中总的隐私预算仍然保持不变;采用指数型预算分配方法:
εt=ε0ekt
其中,ε0为初始隐私预算,t为当前时期数,k是增长率、k>0;
(3.3)判别器接收生成器传输的生成样本后,根据损失函数判断生成样本的真假,更新判别器参数,根据噪声分布进行抽样并更新生成器参数;算法以对抗学习的形式循环迭代,直到累计隐私损失超过总隐私预算或迭代数时算法终止;
(4)对噪声图G′进行了两次遍历来生成轨迹数据,从而收集轨迹数据生成发布数据集D*,每次遍历过程中以头顶点为开始,遍历其他轨迹顶点,直到经过没有出边的顶点为止;生成轨迹时,每经过一个顶点,就将其对应的权值减1,而边的权值不变;算法详细介绍如下:
(4.1)根据步骤(1)中处理后的数据集D′中的每条轨迹T,寻找噪声图G′中是否存在一条相同的轨迹,如果存在并且轨迹中的每个顶点权重值不为0,那么将轨迹数据T添加到发布数据集D*中;但如果由于添加负噪声导致顶点权重减小,在轨迹生成过程中顶点权重如果为0,导致不存在该轨迹,即轨迹中存在轨迹点的缺失,那么将从轨迹数据T中删除该时空点,轨迹数据T中剩下时空点作为一条新的轨迹信息添加到发布数据集D*中;
(4.2)遍历完轨迹数据集D′后,噪声图G′中仍然可能有顶点的权重不为0,利用这些顶点之间的边关系来生成新的轨迹;设计一种启发式算法,即每次选择具有较大权值的顶点或者边来生成新的轨迹,首先从噪声图G′中剩下的节点选取权值最大的头顶点vi作为生成轨迹的SA值;然后,每次选择顶点vi的相连接边中权值最大且相邻顶点权重不为0的点作为轨迹的下一个点,并且将该顶点的权值减1,重复此操作直到某个所选顶点没有出边为止,便生成了一条轨迹;重复上述操作直至所有的顶点权重均为0。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210629788.7A CN115033915B (zh) | 2022-06-06 | 2022-06-06 | 一种基于生成对抗网络的敏感标签轨迹数据差分隐私发布方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210629788.7A CN115033915B (zh) | 2022-06-06 | 2022-06-06 | 一种基于生成对抗网络的敏感标签轨迹数据差分隐私发布方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115033915A true CN115033915A (zh) | 2022-09-09 |
CN115033915B CN115033915B (zh) | 2024-07-26 |
Family
ID=83123794
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210629788.7A Active CN115033915B (zh) | 2022-06-06 | 2022-06-06 | 一种基于生成对抗网络的敏感标签轨迹数据差分隐私发布方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115033915B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115329898A (zh) * | 2022-10-10 | 2022-11-11 | 国网浙江省电力有限公司杭州供电公司 | 基于差分隐私策略的分布式机器学习方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111353173A (zh) * | 2020-03-11 | 2020-06-30 | 大连理工大学 | 一种使用图差分隐私模型的敏感标签轨迹数据发布方法 |
CN113553624A (zh) * | 2021-07-30 | 2021-10-26 | 天津大学 | 基于改进pate的wgan-gp隐私保护系统和方法 |
US20210342546A1 (en) * | 2020-04-30 | 2021-11-04 | Arizona Board Of Regents On Behalf Of Arizona State University | Systems and methods for a privacy preserving text representation learning framework |
WO2021223663A1 (zh) * | 2020-05-06 | 2021-11-11 | 支付宝(杭州)信息技术有限公司 | 基于差分隐私的数据生成系统的训练 |
CN114329549A (zh) * | 2021-12-28 | 2022-04-12 | 上海交通大学 | 一种基于生成对抗网络的图像隐私保护方法及系统 |
-
2022
- 2022-06-06 CN CN202210629788.7A patent/CN115033915B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111353173A (zh) * | 2020-03-11 | 2020-06-30 | 大连理工大学 | 一种使用图差分隐私模型的敏感标签轨迹数据发布方法 |
US20210342546A1 (en) * | 2020-04-30 | 2021-11-04 | Arizona Board Of Regents On Behalf Of Arizona State University | Systems and methods for a privacy preserving text representation learning framework |
WO2021223663A1 (zh) * | 2020-05-06 | 2021-11-11 | 支付宝(杭州)信息技术有限公司 | 基于差分隐私的数据生成系统的训练 |
CN113553624A (zh) * | 2021-07-30 | 2021-10-26 | 天津大学 | 基于改进pate的wgan-gp隐私保护系统和方法 |
CN114329549A (zh) * | 2021-12-28 | 2022-04-12 | 上海交通大学 | 一种基于生成对抗网络的图像隐私保护方法及系统 |
Non-Patent Citations (1)
Title |
---|
王俊丽;柳先辉;管敏: "基于差分隐私保护的社交网络发布图生成模型", 同济大学学报. 自然科学版, vol. 45, no. 8, 31 December 2017 (2017-12-31) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115329898A (zh) * | 2022-10-10 | 2022-11-11 | 国网浙江省电力有限公司杭州供电公司 | 基于差分隐私策略的分布式机器学习方法及系统 |
CN115329898B (zh) * | 2022-10-10 | 2023-01-24 | 国网浙江省电力有限公司杭州供电公司 | 基于差分隐私策略的多属性数据发布方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN115033915B (zh) | 2024-07-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112307078B (zh) | 基于滑动窗口的数据流差分隐私直方图发布方法 | |
CN109766710B (zh) | 关联社交网络数据的差分隐私保护方法 | |
WO2022198947A1 (zh) | 密接人群识别方法、装置、电子设备及存储介质 | |
CN111062421A (zh) | 基于相关性分析的网络节点多维数据社团划分算法 | |
CN114065287B (zh) | 一种抗预测攻击的轨迹差分隐私保护方法和系统 | |
CN115033915A (zh) | 一种基于生成对抗网络的敏感标签轨迹数据差分隐私发布方法 | |
CN109492429A (zh) | 一种数据发布的隐私保护方法 | |
CN114172688A (zh) | 基于gcn-dl的加密流量网络威胁关键节点自动提取方法 | |
CN111797433B (zh) | 一种基于差分隐私的lbs服务隐私保护方法 | |
Wen et al. | Optimization of the occlusion strategy in visual tracking | |
Gogoi et al. | A rough set–based effective rule generation method for classification with an application in intrusion detection | |
CN110909303B (zh) | 一种自适应时空异质性反距离插值方法 | |
CN117014182A (zh) | 一种基于lstm的恶意流量检测方法及装置 | |
CN112287247A (zh) | 基于Meanshift和K-means聚类的社交网络用户位置特征提取方法和装置 | |
Wang et al. | Robust particle tracker via markov chain monte carlo posterior sampling | |
CN114662152B (zh) | 一种面向实时数据的本地化差分隐私数据流发布方法 | |
Koo | Bivariate B-splines for tensor logspline density estimation | |
CN116206771A (zh) | 一种基于集成卡尔曼滤波和社交网络的传染病参数估计方法 | |
Wang et al. | Empirical Game-Theoretic Analysis for Mean Field Games | |
Haneef et al. | A FEATURE SELECTION TECHNIQUE FOR INTRUSION DETECTION SYSTEM BASED ON IWD AND ACO. | |
CN114170338A (zh) | 一种差分隐私保护下基于自适应梯度裁剪的图像生成方法 | |
CN111091283A (zh) | 基于贝叶斯网络的电力数据指纹评估方法 | |
Yao et al. | GAN-based Differential Privacy Trajectory Data Publishing with Sensitive Label | |
Kwon et al. | Noise-Tolerant Trajectory Distance Computation in the Presence of Inherent Noise for Video Surveillance Applications | |
CN113722556B (zh) | 基于自适应数据域划分的保隐私范围查询方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |