CN111581662A - 轨迹隐私保护方法、隐私保护系统、存储介质及移动设备 - Google Patents

轨迹隐私保护方法、隐私保护系统、存储介质及移动设备 Download PDF

Info

Publication number
CN111581662A
CN111581662A CN202010290433.0A CN202010290433A CN111581662A CN 111581662 A CN111581662 A CN 111581662A CN 202010290433 A CN202010290433 A CN 202010290433A CN 111581662 A CN111581662 A CN 111581662A
Authority
CN
China
Prior art keywords
track
privacy
reconstructed
count
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010290433.0A
Other languages
English (en)
Other versions
CN111581662B (zh
Inventor
韩建民
刘奇
于娟
鲁剑锋
彭浩
姚鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Normal University CJNU
Original Assignee
Zhejiang Normal University CJNU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Normal University CJNU filed Critical Zhejiang Normal University CJNU
Priority to CN202010290433.0A priority Critical patent/CN111581662B/zh
Publication of CN111581662A publication Critical patent/CN111581662A/zh
Application granted granted Critical
Publication of CN111581662B publication Critical patent/CN111581662B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于数据安全保护技术领域,公开了一种轨迹隐私保护方法、隐私保护系统、存储介质及移动设备,对每一时间戳下的位置进行聚类;连接不同时间戳下簇的中心,经过过滤得到重构轨迹数据集Ω;对重构轨迹数据集Ω进行筛选得到n条合适的重构轨迹;对筛选得到的n条重构轨迹进行满足差分隐私的机制加噪,发布重构轨迹及重构轨迹的加噪计数。本发明能实现更小的误差,提高轨迹数据发布的有用性;理论分析证明本发明提出的轨迹发布方法满足差分隐私保护模型;实验结果表明,本发明提出的发布机制效率更高、数据可用性更好。本发明提出的两种一般时间序列重构方法能够提供更高的数据有用性,时间效率更高。

Description

轨迹隐私保护方法、隐私保护系统、存储介质及移动设备
技术领域
本发明属于数据安全保护技术领域,尤其涉及一种轨迹隐私保护方法、隐私保护系统、存储介质及移动设备。
背景技术
随着基于位置的服务以及应用的广泛使用,越来越来的轨迹信息被收集。轨迹数作为个体移动路径,在许多领域内具有很重要的价值。例如,学习群体时空移动模式,从而改善基于位置的应用的用户体验效果;帮助城市规划者更好地制定规划策略,避免交通拥塞。
尽管轨迹数据具有很重要的应用价值,但是轨迹数据的位置信息本质会带来用户隐私泄漏问题。例如,如果轨迹数据没有处理直接发布出去,恶意攻击者可以通过背景知识推测出用户的敏感信息,如家庭住址、工作地点、个人爱好等。同时,用户因为隐私顾虑,不愿意去提交关于自身的轨迹数据信息,这将不利于政府以及研究人员的分析工作,相应的应用服务质量改善也会受阻。因此,设计带有隐私保护的轨迹数据发布机制具有很重要的意义。
目前,轨迹发布机制主要分为两类:发布单条轨迹和整个轨迹数据库。在单条轨迹发布过程中,该轨迹中的每一个位置被看成一个记录。而在轨迹数据库发布过程中,每一条轨迹被看成记录单位。二者的主要区别在于前者保护的是轨迹中的位置隐私,而后者保护的是轨迹隐私。本发明的工作就是第二类轨迹数据库发布。
传统的隐私保护方法是基于分组的方式(如K-匿名,置信约束),但这些方法被发现容易受到各种各样的攻击,如构造攻击,背景知识攻击等,因此并不能用于轨迹数据的发布工作。
为了克服传统的隐私保护方法的缺陷,许多基于随机化的隐私保护模型被提出。其中,差分隐私因能隔离背景知识,提供量化的隐私评估方法而成为主流的隐私保护模型。差分隐私最早在2006被Dwork提出,它的主要思想是:单条记录存在与否对作用在数据集上的查询的结果的影响控制在一定的范围内,同时通过概率将这种范围量化出来。通过差分隐私保护模型,用户参与轨迹数据集的查询操作,不会泄露自身隐私。
Chen et al.首次提出基于前缀树的轨迹数据发布方式,将相同序列分组到同一树分支,通过对树节点计数加噪满足差分隐私要求。后来,Chen et al.扩展了前缀树的工作,采用可变长度n-gram模型去处理序列数据。Mehmet er al.通过真实轨迹的特征提取,特征学习,噪音扰乱,来合成轨迹从达到隐私保护的效果。然而,以前工作都假定原始轨迹包含相同的前缀或者长度为n的子序列,这种条件在现实中很难满足。
为移除以上假定,Hua et al.提出一种基于轨迹融合的一般时间序列数据发布方式。主要是包括基于指数机制的位置泛化,以及基于拉普拉斯机制加噪的重构估计发布,因为这两个过程都满足差分隐私,从而保证整个轨迹数据发布过程满足差分隐私。但是基于拉普拉斯机制添加的噪音是从(-∞,+∞)取值,从而导致加噪后的轨迹计数泄漏用户隐私,同时,该发布方法轨迹融合时存在选项是移除原始轨迹得到的,降低轨迹数据可用性。为此,Li et al.提出一种带有拉普拉斯噪音约束的轨迹融合发布方法,在轨迹融合过程中不考虑移除原始轨迹得到的候选项,从而提高发布轨迹的有用性以及发布效率。
然而,已有工作表明,拉普拉斯机制并不是最优的加噪机制。已有工作提出一种拉普拉斯机制的优化版本--Staircase机制,在同等隐私预算下,Staircase机制添加的噪音量会更小。从而提高数据可用性。
通过上述分析,现有技术存在的问题及缺陷为:(1)移动设备的广泛使用使得个体移动数据越来越容易被商家收集到。然而,如果这些移动数据处理不当,会引起隐私泄漏问题。目前保护用户隐私的主流隐私保护模型-差分隐私,通常是添加服从拉普拉斯分布的噪音来保护用户真实信息,存在噪音量过大问题,这会降低轨迹数据可用性。
(2)现有的基于k-means聚类的轨迹融合方法,数据处理效率较低。
(3)现有的轨迹方法假定原始轨迹包含相同的前缀或者长度为n的子序列,这种条件在现实中很难满足。
解决以上问题及缺陷的难度为:如何有效处理高维轨迹数据;如何设计出满足差分隐私模型的轨迹数据发布方案,以抵御各类背景知识攻击;如何提高轨迹数据发布的效率,从而能够在实际应用中落地;如何平衡轨迹数据隐私保护与数据有用性,在提供足够强的隐私保护下,尽可能高地提高轨迹发布的有用性。
解决以上问题及缺陷的意义为:通过设计出高效和带有差分隐私保护的轨迹数据发布方法,有利用在服务器端实际部署;考虑到用户的隐私顾虑,有利于鼓励更多的用户提交位置数据;政府以及相关研究机构能够接触到更多的位置数据,从而改善基于位置服务的应用的质量。
发明内容
针对现有技术存在的问题,本发明提供了一种轨迹隐私保护方法、隐私保护系统、存储介质及移动设备。
具体涉及一种基于聚类及staircase机制的轨迹隐私保护方法、轨迹隐私保护系统、存储介质及移动设备。
本发明是这样实现的,一种轨迹隐私保护方法,包括:
步骤一,使用kmeans||聚类算法对每一时间戳下的位置进行聚类;使用k-means||聚类,能够缩短聚类时间,极大提高整体效率。
步骤二,连接不同时间戳下簇的中心,得到重构轨迹数据集Ω;对重构轨迹数据集Ω进行筛选得到n条合适的重构轨迹;
步骤三,对筛选得到的n条重构轨迹进行满足差分隐私的Staiecase机制加噪,发布重构轨迹及重构轨迹的加噪计数。
为简化问题,假定原始轨迹数据集包含8条轨迹,时间戳长度为4,如图3所示。对每一时间戳下的位置点使用基于欧式距离度量的聚类算法进行聚类,得到不同的簇,以簇中心代替该簇内所有的点如图4所示。对连接得到的泛化轨迹进行选择,以达到原始轨迹规模。最后对泛化轨迹的计数加噪并发布,如表1所示。
进一步,步骤二筛选重构轨迹的方法包括:
方式一,直接聚类,然后连接簇中心执行筛选过程;
方式二,聚类得到簇中心后,使用Staircse机制对簇中心进行扰乱,然后基于扰乱后的簇中心进行轨迹重构与筛选操作。
进一步,方式二具体包括:
输入:原始轨迹数据集;
输入:原始轨迹数据集;
步骤1,遍历每一时间戳下位置集,进行k-means||聚类,使用Staircase机制分别对簇中心进行加噪扰乱;扰乱时约束条件:如果簇心扰乱后偏离该簇范围,将簇心映射到簇内最近点;
步骤2,基于每个时间戳下扰乱后的簇中心,执行筛选重构操作;筛选条件:任意连接的簇中心之间的距离不大于原始轨迹中最大距离阈值。
进一步,步骤三中,对筛选得到的n条重构轨迹进行满足差分隐私的Staiecase机制加噪的方法包括:
输入:计数阈值α=0,β,有原始轨迹经过的重构轨迹,隐私预算ε,灵敏度Δ,随机数γ;
输出:重构轨迹及其加噪计数;
(1)计算有原始轨迹经过的重构轨迹真实计数的最大值。设置阈值β=1.5*最大值;
(2)遍历有原始轨迹经过的重构轨迹:
加噪后的计数=真实计数+Staircase(Δ,γ,ε);
判断加噪后计数是否属于[0,β],如果大于β,则令其为β,如果小于0;
则令其为0;
(3)遍历筛选得到的重构轨迹:
加噪后的计数=Staircase(Δ,γ,ε);
判断加噪后计数是否属于[0,β],如果大于β,则令其为β,如果小于0;
则令其为0。
进一步,步骤三中,重构轨迹发布的方法包括:
第一步,包含原始轨迹位置的泛化轨迹集
Figure BDA0002450186470000041
有k条轨迹;对应Noisy为原始计数基础上噪音Lap(1/ε2);在m^s-k条泛化轨迹集中抽取适当轨迹,m是每个时刻分组数,s是时间戳长度,同时发布相应Noisy,Noisy=0+Lap(1/ε2);
第二步,对
Figure BDA0002450186470000046
的噪音计数排序,即C1>C2>…>Ck,抽取到的轨迹对应的Noisy都是在上面的小区间里;Noisy取值在对应区间,应抽取的轨迹数为Numi,i∈[1,k];Noisy取值在对应区间的概率分别
Figure BDA0002450186470000042
有如下表达式:
Figure BDA0002450186470000043
进一步,步骤三中,差分隐私的Staiecase机制包括:在位置泛化阶段没有扰乱,重构发布算法满足ε2-差分隐私;具体包括:
D和D'是一对邻近轨迹数据集,不同的那条轨迹表示为Tx
Figure BDA0002450186470000044
表示重构轨迹数据集中轨迹Tx对应的泛化轨迹;则从序列nci(D)输出候选项r={r1,r2,...,rΩ}的概率为:
Figure BDA0002450186470000045
包括以下三种概率:
概率1:对于任何泛化轨迹
Figure BDA0002450186470000051
得到Pr[nci(D)=ri]=Pr[nci(D')=ri];
概率2:对于任何
Figure BDA0002450186470000052
的加噪计数等于它的真实计数加上Staircase噪音,
Figure BDA0002450186470000053
概率3:对于任何
Figure BDA0002450186470000054
的加噪计数为添加Staircase噪音,得到
Figure BDA0002450186470000055
Figure BDA0002450186470000056
进一步,步骤三中,差分隐私的Staiecase机制进一步包括扰乱过程体现在位置泛化中簇心扰动与重构估计发布中计数扰动,单时间戳下差分位置泛化过程满足ε1-差分隐私;具体包括:
D和D'是一对邻近轨迹数据集,不同的那条轨迹表示为Tx;单个位置点存在与否对聚类结果的影响非常小,单个时间戳下聚类得到簇为ci(i=1,..,m),令
Figure BDA0002450186470000057
为Tx对应的簇心,对簇心进行扰乱包括:
1):对于任何
Figure BDA0002450186470000058
Pr[ci(D)→c']=Pr[ci(D')→c'];
2):对于
Figure BDA0002450186470000059
Figure BDA00024501864700000510
进一步,步骤三中,差分隐私的Staiecase机制进一步包括整个轨迹发布过程满足|T|·ε12-差分隐私;位置泛化算法M1输出序列r1,重构发布算法M2输出序列r2,则经过算法M1与算法M1处理后得到序列r的概率为
Pr[M(D)=r]=Pr[M1(D)=r1]·Pr[M2(D)=r2];
整个机制在领接轨迹数据集D和D'上的隐私分析为
Figure BDA00024501864700000511
本发明的另一目的在于提供一种接收用户输入程序存储介质,所存储的计算机程序使电子设备执行所述轨迹隐私保护方法,包括下列步骤:
步骤I,使用kmeans++聚类算法对每一时间戳下的位置进行聚类;
步骤II,连接不同时间戳下簇的中心,得到重构轨迹数据集Ω;对重构轨迹数据集Ω进行筛选得到n条合适的重构轨迹;
步骤III,对筛选得到的n条重构轨迹进行满足差分隐私的Staiecase机制加噪,发布重构轨迹及重构轨迹的加噪计数。
本发明的另一目的在于提供一种存储在计算机可读介质上的计算机程序产品,包括计算机可读程序,供于电子装置上执行时,提供用户输入接口以实施所述轨迹隐私保护方法。
本发明的另一目的在于提供一种执行所述轨迹隐私保护方法的移动设备。
结合上述的所有技术方案,本发明所具备的优点及积极效果为:
(1)不需要假定原始轨迹具有相同的前缀或者子序列,在实际应用中,更加符合实际情况;
(2)基于差分隐私模型发布轨迹数据,能够抵御背景知识攻击,为用户轨迹数据提供可靠的隐私保护;
(3)对原始的轨迹数据扰动较小,发布的泛化轨迹数据集具有较高的应用机制;
(4)系统运行效率性能较以往工作作出大幅度提升,在实际应用中更容易落地。
本发明对轨迹融合过程进行改进,提出两种基于K-means||聚类的改进轨迹融合方法,提高轨迹融合效率与数据有用性。本发明对重构轨迹计数加噪机制进行改进,提出一种改进Staircase机制的计数加噪方式,实现更小的误差,提高轨迹数据发布的有用性。在真实轨迹数据集进行实验,从数据有用性与效率两方面对比本发明提出的机制与传统工作。实验结果表明,本发明提出的发布机制效率更高、数据可用性更好。本发明提出的两种一般时间序列重构方法能够提供更高的数据有用性,时间效率更高。
本发明相比于现有技术,对比的技术效果或者实验效果有:从数据有用性与系统运行效率两方面,与已有的工作INFOCOM15和IS17进行对比。
为了综合评价所提方法的性能,本发明分别改变了隐私预算和分组数。本发明选择的隐私预算为0.5和1.5,组数为10、20、30、40、50、60、70、80。从图5和图6可以看出,本发明提出的两种方案的Hausdorff距离大多小于INFOCOM15和IS17,说明NPCG和PCG的数据效用更高。本发明注意到PCG的效用高于本发明的NPCG,这与前面的分析不一致。这可能与分配的少量隐私预算有关。在NPCG中,偏离簇范围的点被映射到簇中最近的点,这提高了数据的有用性。
本发明改变隐私预算(选择0.5和1.0)和位置区域的分组数目(本发明选择10,20,30、40、50、60、70、80)。为了一个更全面的比较,本发明选择了四种带有不同半径的查询框,随机运行超过500次,选择平均作为最终结果。如图7和图8所示,在不同的查询半径和组数下,本发明提出的两种方案的数据效用总是高于IS17和INFOCOM15。由于上面提到的原因,PCG提供了比NPCG更高的数据实用程序,在比较机制中执行性能最好。此外,本发明注意到F1-measure,即,数据有用性,会随着组的数量增加而增加。由于分组数量越大,被合并相同分组的轨迹会越来越少,数据精度损失会越来越少,因此数据有用性会随着分组数量的增加而增加。
本发明首先看的是在不同组数和隐私预算的情况下,NPCG和PCG的平均噪声产生时间。本发明选择的组数为10、20、30、40、50、60、70、80,隐私预算是0.1,0.5 1.0,1.5 2.0.通过对系统模型的分析可知,NPCG的噪声产生时间主要体现在基于约束Stiarcase噪声的轨迹计数数扰动中,而PCG则体现在质心扰动和轨迹计数扰动中,这意味着PCG的扰动过程更加复杂。如图9和图10所示,PCG的时间成本要高得多。本发明可以注意到,随着隐私预算的增加,产生噪音的时间会减少。由于隐私预算越大,添加的噪声越少,因此隐私保护水平越低。
这里描述了在不同隐私预算0.5,1.0,1.5,2.0与不同分组情况下平均轨迹融合时间。结果如图11和图12所示。与噪声产生过程相似,PCG的平均轨迹生成时间比NPCG要长。本发明也注意到轨迹生成的时间成本随着群组数量的增加而增加,但是随着隐私预算的增加而保持稳定。实际上,对比图9和图11或图10和图12,本发明可以发现,本发明提出的方法的总时间成本主要由聚类工作决定。
最后,本发明比较了本发明提出的机制和INFOCOM15,IS17的时间。本发明改变分组的数量(本发明选择10、20、30、40、50、60、70、80),并查看平均生成时间的时间成本如何变化。本发明工作与INformcom15与IS17做比较。在INFOCOM15中,位置泛化过程中使用指数机制筛选
Figure BDA0002450186470000071
不同划分情况。因为s中划分情况是通过每次移除一条原始估计聚类的得到的,这将破坏数据的可用性,IS17中移除这s种情况。本发明设置
Figure BDA0002450186470000072
s=10。如图13和图14所示,在隐私预算为0.1时,本发明提出轨迹发布机制NPCG较工作INFOCOM15运行时间减少了85%到94%,较工作IS17运行时间减少了70%到92%。在隐私预算为0.5时,NPC发布方案较INFOCOM15减少了82%到98%,较IS17减少里75%到95%。同时,比较NPCG和PCG的运行时间,发现在隐私预算为0.1时,PCG较NPCG要多出30%的时间,在隐私预算为0.5时,PCG较NPCG要多出42%的时间。
附图说明
图1是本发明实施例提供的基于聚类及staircase机制的轨迹隐私保护方法流程图。
图2是本发明实施例提供的基于聚类及staircase机制的轨迹隐私保护方法原理图。
图3是本发明实施例提供的原始轨迹数据集图。
图4是本发明实施例提供的轨迹聚类图。
图5本发明实施例提供的两种方法的豪斯托夫距离(epsilon=0.5)。
图6本发明实施例提供的两种方法的豪斯托夫距离(epsilon=1.0)。
图7本发明实施例提供的两种方法的的F1-measure(epsilon=0.5)。
图8本发明实施例提供的两种方法F1-measure(epsilon=1.0)。
图9本发明实施例提供思路1的平均噪音生成时间(NPCG)。
图10本发明实施例提供思路2的平均噪音生成时间(PCG)。
图11本发明实施例提供思路1的平均轨迹生成时间(NPCG)。
图12本发明实施例提供思路2的平均轨迹生成时间(PCG)。
图13本发明实施例提供的两种思路的平均轨迹生成时间比较(epsilon=0.1)。
图14本发明实施例提供的两种思路的平均轨迹生成时间比较(epsilon=0.5)。
图15本发明实施例提供的两种思路的互信息(epsilon=0.5)。
图16本发明实施例提供的两种思路的互信息(epsilon=1.5)。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
目前保护用户隐私的主流隐私保护模型-差分隐私,通常是添加服从拉普拉斯分布的噪音来保护用户真实信息,存在噪音量过大问题,这会降低轨迹数据可用性。现有的基于K-means聚类的轨迹融合方法,数据处理效率较低。
针对现有技术存在的问题,本发明提供了一种基于聚类及staircase机制的轨迹隐私保护方法,下面结合附图对本发明作详细的描述。
差分隐私是统计数据库里的一种形式框架,它量化个体隐私保护程度,同时确保发布关于数据库有用的统计信息。差分隐私通过发布信息对个体存在不敏感提供很强的隐私保护。以下给出差分隐私的正式定义以及常用性质。
定义1(ε-差分隐私).一个随机算法M满足差分隐私,当且仅当在两个邻接数据库D和D’(最多只相差一条记录)上,针对任意的输出O∈Range(M),有
Pr[M(D)=O]≤eε×Pr[M(D')=O] (1)
其中,概率性体现在算法M的随机性上。
在上面的公式中,参数ε∈(0,+∞)量化机制M的隐私保护程度:ε越小,随机算法M提供更高的隐私保护程度。
根据查询类型的不同(数值型查询与非数值型查询)[],实现差分隐私的主要机制有拉普拉斯机制、Staircase机制和指数机制。差分隐私的主要思想是通过对输出进行扰动来掩盖因为单个个体存在与否对输出结果产生的影响,这种扰动主要表现形式是添加噪音。噪音是要由隐私预算与查询函数的灵敏度共同决定,下面介绍灵敏度的基本概念:
定义2(全局敏感度).对于给定的函数f:D→Rm,函数f的全局敏感度为
Figure BDA0002450186470000091
D和D’只相差一条记录。
基于以上基本概念,这里分别给出针对数值型输出与非数值型输出的实现机制,即Staircase机制与指数机制。
Staircase机制.对于一个敏感度为Δ的多维实数查询函数q:D→Rd,使用指数机制将会输出
K(D)=q(D)+Staircase(Δ,ε,γ)d
其中,Staircase(Δ,ε,γ)是一个随机变量,它的概率密度函数为
Figure BDA0002450186470000092
所有的Staircase变量都是独立的。
因为Staircase机制是Laplace机制的改进版本,所以这里Laplace机制就不进行介绍了。
定理1.对于任何函数f:D→Rd,对输出添加满足Staircase(Δ,ε,γ)分布的独立随机噪音,该过程满足ε-差分隐私。
指数机制.对于输出是非实数类型的查询函数,如输出是字符串、策略、树等,如果直接添加噪音会让结果变的没有意义。McSherry和Talwar针对这种情况,提出满足差分隐私的指数机制。该机制中,使用了一个评分函数使得每一个输出以非0的概率被选中。例如,对于给定的有用性函数(D×τ)→R,指数机制会会以正比于
Figure BDA0002450186470000101
的概率输出候选项r,其中,
Figure BDA0002450186470000102
是用有用性函数的敏感度。因为评分越高的输出更有可能被选中,所以该机制收敛于候选情况。
定理2.指数机制满足ε-差分隐私。
构造定理。在满足差分隐私约束的基本机制后,接下来说明如何组合这些机制设计出更复杂的机制。差分隐私有两个重要性质。第一个性质是针对同一个数据库使用一系列满足差分隐私的算法,整个过程也是满足差分隐私约束的,同时隐私预算是累加子算法隐私预算得到的。第二个性质是当一系列满足差分隐私的算法在独立的数据库上操作时,该过程也是满足差分隐私约束,但隐私预算是子算法中隐私保护程度最差情况下的隐私预算。两种性质正式描述如下。
定理3(串行构造).对于算法M1,...Mn,每一种算法对应的隐私预算为ε1,...εn,这些算法同时在数据库D上操作,该过程满足
Figure BDA0002450186470000103
差分隐私。
定理4(并行构造).对于算法M1,...Mn,每一种算法对应的隐私预算为ε1,...εn,这些算法同时在数据库D上互相没有交集的子部分上执行,该过程满足max(εi)-差分隐私。
定义3(轨迹).轨迹是一些列带有时间戳性质的位置点集:T=(t1,l1)→(t2,l2)→...→(t|T|,l|T|),其中,li(1≤i≤|T|)是由经度与维度表示的离散空间点,li∈Γi在时间戳ti下的位置域。|T|是时间戳的长度。
每一条轨迹代表了一个用户的移动历史。一条轨迹中的一个位置可能在多个时间戳下都会出现。这里,Time(T)表示轨迹T中的时间,Location(T)表示在T中的位置.
Definition 4(轨迹数据库).规模为|D|的轨迹集D,是一系列轨迹与其对应ID的集合。
为了简化问题,本发明认为在D中的所有轨迹都是在相同的时间戳下记录的,即
Figure BDA0002450186470000104
假设数据管理者想发布一个轨迹数据集D用于分析,但是他又不想泄漏轨迹个体隐私,于是需要对轨迹数据集D进行匿名化处理得到
Figure BDA0002450186470000105
最终发布的匿名轨迹数据集
Figure BDA0002450186470000106
需要提供很强的隐私保护和较高的数据可用性。
隐私保护要求:因为差分隐私能够抵御背景知识攻击,需要轨迹数据库匿名过程满足ε-差分隐私:
Figure BDA0002450186470000111
数据有用性要求:为实现差分隐私保护,需要对输出进行扰动,数据的可用性不可避免受到影响。因为本发明发布的是重构轨迹数据集及其加噪计数,分析者只能查询到已有的重构轨迹以及加噪计数求和。本发明分别从轨迹相似性和计数精确程度来衡量重构轨迹的有用性。轨迹相似性采用豪斯托夫距离度量,如果豪斯托夫距离越小,说明重构轨迹数据集越接近真实轨迹数据集。在原始轨迹数据集和重构轨迹数据集上进行window rangequery,使用F-measure作为度量准则。
如图1所示,本发明实施例提供的基于聚类及staircase机制的轨迹隐私保护方法包括:输入包含n条轨迹的原始数据集,经过本发明提出的一般时间序列的轨迹重构方法,发布重构轨迹数据集。具体包括:
S101,使用kmeans||聚类算法对每一时间戳下的位置进行聚类。
S102,连接不同时间戳下簇的中心,得到重构轨迹数据集Ω。为达到原始轨迹数据集同样的规模,对重构轨迹数据集Ω进行筛选得到n条合适的重构轨迹。
S103,对筛选得到的n条重构轨迹进行满足差分隐私的Staiecase机制加噪,发布重构轨迹及其加噪计数。
上述操作可以归纳为位置泛化与重构轨迹发布。在重构轨迹集生成的过程中,需要满足隐私保护性、数据有用性、重构高效性。
如图2所示,本发明实施例提供的基于聚类及staircase机制的轨迹隐私保护方法原理。
在本发明实施例中,差分位置泛化包括:为简化问题,假定原始轨迹数据集包含8条轨迹,时间戳长度为4。如图2所示。对每一时间戳下的位置点使用基于欧式距离度量的聚类算法进行聚类,得到不同的簇,以簇中心代替该簇内所有的点,如图3所示。目前的轨迹发布工作用的都是经典的k-means聚类,但轨迹数据轨迹规模可以达到千万级别,使用K-means算法的时间效率是比较低的,如果对其进行改进,主要是在确定质心的方式上进行改进。
K-means方法随机滴抽取k个样本作为质心,如果质心选的不好,会造成迭代次数多。
K-means++对k-means进行改进,按照概率来抽取k个质心,但是当k和数据量较大时,由于确定质心内部的有序性,每次只添加一个质心,会造成确定质心的过程非常耗时。而最新的k-means||算法,先获取一个候选质心集合,然后在这个集合上得到k个质心,在大数据集上会非常快。本发明采用k-means||算法基于位置点间的欧式距离对每一时间戳的下的位置进行聚类,得到不同形状的簇。如果聚类之后的簇越多,意味着每个轨迹的位置减小可能与其它轨迹的位置融合在一起,因此轨迹的精度损失会变小,重构轨迹的有用性会提高。如图4轨迹聚类图所示。
思路一:隐私保护可能会差,但数据可用性会高些。直接聚类,然后连接簇中心执行筛选过程。
思路二:聚类得到簇中心后,为提高隐私保护程度,使用Staircse机制对簇中心进行扰乱,然后基于扰乱后的簇中心进行轨迹重构与筛选操作,这在下一节会具体介绍。这一过程如算法1所示。
Figure BDA0002450186470000121
在本发明实施例中,重构轨迹发布包括:基于每一个时间戳下簇中心连接操作得到重构轨迹集,如果考虑每一种簇中心连接情况,得到的重构轨迹规模会远远大于原始轨迹集规模。举个例子,原始轨迹集包含2000条轨迹,如果将每个时间戳下的位置区域划分成60个簇,即该位置区域下包含60个簇中心,时间戳的长度为32,那么需要考虑的轨迹数据集规模为6032,这将远远超过原始轨迹规模。
本发明采用工作中的思路,这里假定包含原始轨迹位置的泛化轨迹集
Figure BDA0002450186470000122
有k条轨迹。对应Noisy为原始计数基础上噪音Lap(1/ε2)。这时为达到与原始轨迹集同等规模,需要在m^s-k(这里m是每个时刻分组数,s是时间戳长度)条泛化轨迹集中抽取适当轨迹,同时发布相应Noisy(这里Noisy=0+Lap(1/ε2))。
为了保证发布结果中轨迹对应的Noisy数值对齐,不存在极端值,对
Figure BDA0002450186470000123
的噪音计数排序,即C1>C2>…>Ck,抽取到的轨迹对应的Noisy都是在上面的小区间里。Noisy取值在对应区间,应抽取的轨迹数为Numi,i∈[1,k]。Noisy取值在对应区间的概率分别
Figure BDA0002450186470000124
于是有了下面这个表达式:
Figure BDA0002450186470000131
在工作中采用拉普拉斯机制对轨迹计数加噪,但拉普拉斯机制添加噪音量大,且随机性强较强,易泄漏用户隐私[],本发明采用一种改进的Staircase机制对真实计数加噪,其过程如算法3所示。
Figure BDA0002450186470000132
拿一开始包含8条原始轨迹轨迹集为例,经过轨迹重构筛选与计数加噪后,发布的重构轨迹数据集如表1所示。
表1 重构轨迹发布
重构轨迹 包含的真实轨迹 真实计数 加噪计数
l<sub>11</sub>→l<sub>21</sub>→l<sub>31</sub>→l<sub>41</sub> T<sub>1</sub>,T<sub>3</sub>,T<sub>4</sub> 3 4
l<sub>11</sub>→l<sub>21</sub>→l<sub>31</sub>→l<sub>42</sub> T<sub>2</sub> 1 2
l<sub>11</sub>→l<sub>21</sub>→l<sub>32</sub>→l<sub>42</sub> T<sub>5</sub> 1 0
l<sub>11</sub>→l<sub>22</sub>→l<sub>31</sub>→l<sub>41</sub> T<sub>6</sub> 1 2
l<sub>12</sub>→l<sub>22</sub>→l<sub>32</sub>→l<sub>42</sub> T<sub>7</sub>,T<sub>8</sub> 2 1
l<sub>12</sub>→l<sub>22</sub>→l<sub>31</sub>→l<sub>42</sub> φ 0 1
l<sub>11</sub>→l<sub>22</sub>→l<sub>32</sub>→l<sub>42</sub> φ 0 2
l<sub>12</sub>→l<sub>22</sub>→l<sub>32</sub>→l<sub>41</sub> φ 0 1
在本发明实施例中,隐私分析包括:
本发明提出两种种位置泛化方式,下面分别分析其提供的隐私保证。
思路一的隐私分析:
思路1在位置泛化阶段没有扰乱,隐私分析部分是在重构轨迹发布阶段。
定理6.重构发布算法满足ε2-差分隐私。
Proof:假设D和D'是一对邻近轨迹数据集,它们不同的那条轨迹表示为Tx。让
Figure BDA0002450186470000141
表示重构轨迹数据集中轨迹Tx对应的泛化轨迹。则从序列nci(D)输出候选项r={r1,r2,...,rΩ}的概率为:
Figure BDA0002450186470000142
主要是分为以下三种情况:
Case 1:对于任何泛化轨迹
Figure BDA0002450186470000143
得到Pr[nci(D)=ri]=Pr[nci(D')=ri]。
Case 2:对于任何
Figure BDA0002450186470000144
的加噪计数等于它的真实计数加上Staircase噪音,因此,
Figure BDA0002450186470000145
Case 3:对于任何
Figure BDA0002450186470000146
的加噪计数就是添加Staircase噪音,可以得到
Figure BDA0002450186470000147
因此,
Figure BDA0002450186470000148
思路2扰乱过程体现在位置泛化中簇心扰动与重构估计发布中计数扰动。
定理7.单时间戳下差分位置泛化过程满足ε1-差分隐私。
Proof:假设D和D'是一对邻近轨迹数据集,它们不同的那条轨迹表示为Tx。易知单个位置点存在与否对聚类结果的影响是非常小的,单个时间戳下聚类得到簇为ci(i=1,..,m),令
Figure BDA0002450186470000149
为Tx对应的簇心,对簇心进行扰乱主要是以下两种情况:
Case1:对于任何
Figure BDA00024501864700001410
Pr[ci(D)→c']=Pr[ci(D')→c']。
Case2:对于
Figure BDA00024501864700001411
Figure BDA00024501864700001412
得证。
根据定理3,整个思路2中整个位置泛化过程满足|T|·ε1-差分隐私。
定理8.整个轨迹发布过程满足|T|·ε12-差分隐私。
Proof:重构轨迹发布过程的隐私分析与思路1是一样的,这里省去证明,该过程满足ε2-差分隐私。位置泛化算法M1输出序列r1,重构发布算法M2输出序列r2,则经过算法M1与算法M1处理后得到序列r的概率为
Pr[M(D)=r]=Pr[M1(D)=r1]·Pr[M2(D)=r2]
整个机制在领接轨迹数据集D和D'上的隐私分析为
Figure BDA0002450186470000151
所以,思路2中整个轨迹发布过程满足|T|·ε12-差分隐私。得证。
下面结合实验评估对本发明作进一步描述。
本发明使用T-drive数据集,该数据集包括一周内10357辆出租车的数据,包括出租车ID,时间,位置(经纬度表示),如下图所示。虽然这些出租车的起始时间是一致的,但中间时间间隔有较大差异,如某些出租车在一定时间段没有行使数据。所以要使用一定的预处理:选取每天8点半到下午的两点半的时间段,将其离散化成32个时间点,这样任意两个时间戳之间的时间间隔大概为10分钟。本发明选取礼拜三轨迹进行预处理,得到2400条轨迹。每次实验运行10次,然后取平均值作为最终结果。
比较工作:15Infocom,17Information Sciences。
下面结合实验环境对本发明作进一步描述。
1有用性度量:数据有用性主要从豪斯托夫距离、windows range query。
本发明提出两种位置泛化思路对数据有用性都有影响。以簇心代替簇内所有的点会产生误差,如果再对簇心进行扰乱,误差会进一步增大。在重构轨迹阶段,添加服从Staircase分布的噪音对真实轨迹计数扰乱,会影响数据的有用性。本发明使用Hausdorffdistance度量原始轨迹集与重构轨迹集之间的有用性损失。Hausdorff distance用来描述两组点集之间的相似程度,如原始轨迹数据集D(T1,...,Tn)和重构轨迹数据集
Figure BDA0002450186470000152
之间的Hausdorff distance定义为:
Figure BDA0002450186470000153
其中,
Figure BDA0002450186470000161
如果H(D,D')越小,说明原始轨迹数据集与重构轨迹数据集相似性越大,数据可用性越高。
为了综合评价所提方法的性能,本发明分别改变了隐私预算和分组数。本发明选择的隐私预算为0.5和1.5,组数为10、20、30、40、50、60、70、80。从图5和图6可以看出,本发明提出的两种方案的Hausdorff距离大多小于INFOCOM15和IS17,说明NPCG和PCG的数据效用更高。本发明注意到PCG的效用高于本发明的NPCG,这与前面的分析不一致。这可能与分配的少量隐私预算有关。在NPCG中,偏离簇范围的点被映射到簇中最近的点,这提高了数据的有用性。
同时,本发明也从查询角度来度量重构轨迹数据集的有用性。这里采用Windowsrange query,其定义如下:
(window range query)定义:给定一个立方体查询,表示为
Figure BDA0002450186470000162
这些参数表示该立方体所包括的位置范围和时间范围。W-RQ是为了发现所有满足条件的轨迹:该轨迹中至少有一个点(xi,yi,ti),这个点满足
Figure BDA0002450186470000163
如给定一个W-RQ查询(查询框的大小未知),Rg表示原始轨迹数据集返回查询结果,Rc表示处理后轨迹数据集返回的查询结果,则W-RQ的精度precision表示为:
Figure BDA0002450186470000164
W-RQ的召回率定义为:
Figure BDA0002450186470000165
通过加权调和prec(W-RQ)和recall(W-RQ),得到
Figure BDA0002450186470000166
本发明使用F1作为度量指标,与Infocom15与IS17工作相对比。
本发明改变隐私预算(选择0.5和1.0)和位置区域的分组数目(本发明选择10,20,30、40、50、60、70、80)。为了一个更全面的比较,本发明选择了四种带有不同半径的查询框,随机运行超过500次,选择平均作为最终结果。如图7和图8所示,在不同的查询半径和组数下,本发明提出的两种方案的数据效用总是高于IS17和INFOCOM15。由于上面提到的原因,PCG提供了比NPCG更高的数据实用程序,在比较机制中执行性能最好。此外,本发明注意到F1-measure,即,数据有用性,会随着组的数量增加而增加。由于分组数量越大,被合并相同分组的轨迹会越来越少,数据精度损失会越来越少,因此数据有用性会随着分组数量的增加而增加。
2效率度量:
为了更全面地分析所提出的机构的性能,本发明首先分析了噪声产生和泛化轨迹产生的时间成本,然后将所提出的机构的总时间成本与两个对比工作INFOCOM15和IS17比较。
2.1平均噪音生成时间
本发明首先看的是在不同组数和隐私预算的情况下,NPCG和PCG的平均噪声产生时间。本发明选择的组数为10、20、30、40、50、60、70、80,隐私预算是0.1,0.5 1.0,1.5 2.0.
通过对系统模型的分析可知,NPCG的噪声产生时间主要体现在基于约束Stiarcase噪声的轨迹计数数扰动中,而PCG则体现在质心扰动和轨迹计数扰动中,这意味着PCG的扰动过程更加复杂。如图9和图10所示,PCG的时间成本要高得多。本发明可以注意到,随着隐私预算的增加,产生噪音的时间会减少。由于隐私预算越大,添加的噪声越少,因此隐私保护水平越低。
2.2平均轨迹融合时间:
这里描述了在不同隐私预算0.5,1.0,1.5,2.0与不同分组情况下平均轨迹融合时间。结果如图11和图12所示。与噪声产生过程相似,PCG的平均轨迹生成时间比NPCG要长。本发明也注意到轨迹生成的时间成本随着群组数量的增加而增加,但是随着隐私预算的增加而保持稳定。实际上,对比图9和图11或图10和图12,本发明可以发现,本发明提出的方法的总时间成本主要由聚类工作决定。
2.3轨迹融合时间比较:
本发明工作与INformcom15与IS17做比较。在INFOCOM15中,位置泛化过程中使用指数机制筛选
Figure BDA0002450186470000171
不同划分情况。因为s中划分情况是通过每次移除一条原始估计聚类的得到的,这将破坏数据的可用性,IS17中移除这s种情况。本发明设置
Figure BDA0002450186470000172
s=10。如图13和图14所示,在隐私预算为0.1时,本发明提出轨迹发布机制NPCG较工作INFOCOM15运行时间减少了85%到94%,较工作IS17运行时间减少了70%到92%。在隐私预算为0.5时,NPC发布方案较INFOCOM15减少了82%到98%,较IS17减少里75%到95%。同时,比较NPCG和PCG的运行时间,发现在隐私预算为0.1时,PCG较NPCG要多出30%的时间,在隐私预算为0.5时,PCG较NPCG要多出42%的时间。
3隐私度量:
本发明采用工作[]中采用的指标互信息度量隐私损失。互信息指的是两个数据分布的相似程度,也可以用于描述两个系统之间的统计相关性,或者是一个系统中所包含另一个系统中信息的多少。互信息I(A,B)计算的计算公式为:
Figure BDA0002450186470000181
其中,I(A,B)是互信息,PAB(a,b)是A和B的联合概率分布函数,而PA(a)和PB(b)分别是A和B的边缘概率分布函数。在连续随机变量的情况下,求和被替换成了二重定积分。
本发明设置隐私预算为0.5,1.0,1.5情况下隐私预算对比,如图8所示。
下面结合效果对本发明作进一步描述。
本发明针对一般时间序列数据发布过程数据可用性差、轨迹融合效率的问题,提出一种基于K-means||聚类与Staircase机制的轨迹重构发布方法。该发布方法包括差分位置泛化与重构轨迹发布。在差分位置泛化中本发明提出两种融合思路,思路一是使用k-means||聚类算法对位置区域进行聚类,以聚类得到簇心代替该簇内所有的点,思路2为提高隐私保护性,使用Staircase机制对簇心位置进行扰乱。轨迹重构过程中连接簇心,利用筛选条件得到重构的轨迹,同时使用Staircase机制对轨迹计数进行扰乱。实验表明,本发明提出的重构发布方法数据可用性更好,处理效率更高。
应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种轨迹隐私保护方法,其特征在于,所述轨迹隐私保护方法包括:
步骤一,使用kmeans||聚类算法对每一时间戳下的位置进行聚类;
步骤二,连接不同时间戳下簇的中心,经过过滤得到重构轨迹数据集Ω;对重构轨迹数据集Ω进行筛选得到n条合适的重构轨迹;
步骤三,对筛选得到的n条重构轨迹进行满足差分隐私的Staiecase机制加噪,发布重构轨迹及重构轨迹的加噪计数。
2.如权利要求1所述的轨迹隐私保护方法,其特征在于,步骤二筛选重构轨迹的方法包括:
方式一,直接聚类,然后连接簇中心执行筛选过程;
方式二,聚类得到簇中心后,使用Staircse机制对簇中心进行扰乱,然后基于扰乱后的簇中心进行轨迹重构与筛选操作。
3.如权利要求2所述的轨迹隐私保护方法,其特征在于,方式二具体包括:
输入:原始轨迹数据集;
输入:原始轨迹数据集;
步骤1,遍历每一时间戳下位置集,进行k-means||聚类,使用Staircase机制分别对簇中心进行加噪扰乱;扰乱时约束条件:如果簇心扰乱后偏离该簇范围,将簇心映射到簇内最近点;
步骤2,基于每个时间戳下扰乱后的簇中心,执行筛选重构操作;筛选条件:任意连接的簇中心之间的距离不大于原始轨迹中最大距离阈值。
4.如权利要求1所述的轨迹隐私保护方法,其特征在于,步骤三中,对筛选得到的n条重构轨迹进行满足差分隐私的Staiecase机制加噪的方法包括:
输入:计数阈值α=0,β,有原始轨迹经过的重构轨迹,隐私预算ε,灵敏度Δ,随机数γ;
输出:重构轨迹及其加噪计数;
(1)计算有原始轨迹经过的重构轨迹真实计数的最大值。设置阈值β=1.5*最大值;
(2)遍历有原始轨迹经过的重构轨迹:
加噪后的计数=真实计数+Staircase(Δ,γ,ε);
判断加噪后计数是否属于[0,β],如果大于β,则令其为β,如果小于0;
则令其为0;
(3)遍历筛选得到的重构轨迹:
加噪后的计数=Staircase(Δ,γ,ε);
判断加噪后计数是否属于[0,β],如果大于β,则令其为β,如果小于0;
则令其为0。
5.如权利要求1所述的轨迹隐私保护方法,其特征在于,步骤三中,重构轨迹发布的方法包括:
第一步,包含原始轨迹位置的泛化轨迹集
Figure FDA0002450186460000024
有k条轨迹;对应Noisy为原始计数基础上噪音Lap(1/ε2);在m^s-k条泛化轨迹集中抽取适当轨迹,m是每个时刻分组数,s是时间戳长度,同时发布相应Noisy,Noisy=0+Lap(1/ε2);
第二步,对
Figure FDA0002450186460000021
的噪音计数排序,即C1>C2>…>Ck,抽取到的轨迹对应的Noisy都是在上面的小区间里;Noisy取值在对应区间,应抽取的轨迹数为Numi,i∈[1,k];Noisy取值在对应区间的概率分别
Figure FDA0002450186460000022
有如下表达式:
Figure FDA0002450186460000023
6.如权利要求1所述的轨迹隐私保护方法,其特征在于,步骤三中,差分隐私的Staiecase机制包括:在位置泛化阶段没有扰乱,重构发布算法满足ε2-差分隐私;具体包括:
D和D'是一对邻近轨迹数据集,不同的那条轨迹表示为Tx
Figure FDA0002450186460000031
表示重构轨迹数据集中轨迹Tx对应的泛化轨迹;则从序列nci(D)输出候选项r={r1,r2,...,r|Ω|}的概率为:
Figure FDA0002450186460000032
包括以下三种概率:
概率1:对于任何泛化轨迹
Figure FDA0002450186460000033
得到Pr[nci(D)=ri]=Pr[nci(D')=ri];
概率2:对于任何
Figure FDA0002450186460000034
Figure FDA0002450186460000035
的加噪计数等于它的真实计数加上Staircase噪音,
Figure FDA0002450186460000036
概率3:对于任何
Figure FDA0002450186460000037
Figure FDA0002450186460000038
的加噪计数为添加Staircase噪音,得到
Figure FDA0002450186460000039
Figure FDA00024501864600000310
7.如权利要求1所述的轨迹隐私保护方法,其特征在于,步骤三中,差分隐私的Staiecase机制进一步包括扰乱过程体现在位置泛化中簇心扰动与重构估计发布中计数扰动,单时间戳下差分位置泛化过程满足ε1-差分隐私;具体包括:
D和D'是一对邻近轨迹数据集,不同的那条轨迹表示为Tx;单个位置点存在与否对聚类结果的影响非常小,单个时间戳下聚类得到簇为ci(i=1,..,m),令
Figure FDA00024501864600000311
为Tx对应的簇心,对簇心进行扰乱包括:
1):对于任何
Figure FDA00024501864600000312
Pr[ci(D)→c']=Pr[ci(D')→c'];
2):对于
Figure FDA00024501864600000313
Figure FDA00024501864600000314
步骤三中,差分隐私的Staiecase机制进一步包括整个轨迹发布过程满足|T|·ε12-差分隐私;位置泛化算法M1输出序列r1,重构发布算法M2输出序列r2,则经过算法M1与算法M1处理后得到序列r的概率为
Pr[M(D)=r]=Pr[M1(D)=r1]·Pr[M2(D)=r2];
整个机制在领接轨迹数据集D和D'上的隐私分析为
Figure FDA0002450186460000041
8.一种接收用户输入程序存储介质,所存储的计算机程序使电子设备执行权利要求1~7任意一项所述基于聚类及staircase机制的轨迹隐私保护方法,包括下列步骤:
步骤I,使用kmeans||聚类算法对每一时间戳下的位置进行聚类;
步骤II,连接不同时间戳下簇的中心,得到重构轨迹数据集Ω;对重构轨迹数据集Ω进行筛选得到n条合适的重构轨迹;
步骤III,对筛选得到的n条重构轨迹进行满足差分隐私的Staiecase机制加噪,发布重构轨迹及重构轨迹的加噪计数。
9.一种存储在计算机可读介质上的计算机程序产品,包括计算机可读程序,供于电子装置上执行时,提供用户输入接口以实施如权利要求1~7任意一项所述轨迹隐私保护方法。
10.一种执行权利要求1~7任意一项所述轨迹隐私保护方法的移动设备。
CN202010290433.0A 2020-04-14 2020-04-14 轨迹隐私保护方法及存储介质 Active CN111581662B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010290433.0A CN111581662B (zh) 2020-04-14 2020-04-14 轨迹隐私保护方法及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010290433.0A CN111581662B (zh) 2020-04-14 2020-04-14 轨迹隐私保护方法及存储介质

Publications (2)

Publication Number Publication Date
CN111581662A true CN111581662A (zh) 2020-08-25
CN111581662B CN111581662B (zh) 2023-04-18

Family

ID=72113019

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010290433.0A Active CN111581662B (zh) 2020-04-14 2020-04-14 轨迹隐私保护方法及存储介质

Country Status (1)

Country Link
CN (1) CN111581662B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112328714A (zh) * 2020-09-24 2021-02-05 南京航空航天大学 一种基于差分隐私的机场场面轨迹数据发布方法
CN112347509A (zh) * 2020-11-06 2021-02-09 浙江师范大学 基于隐私核心集和staircase机制的轨迹数据发布方法
CN113438603A (zh) * 2021-03-31 2021-09-24 南京邮电大学 一种基于差分隐私保护的轨迹数据发布方法及系统
CN115017440A (zh) * 2022-05-31 2022-09-06 湖南大学 一种基于差分隐私保护的聚合位置数据发布方法
CN118132667A (zh) * 2024-05-07 2024-06-04 之江实验室 基于本地化差分隐私的车辆轨迹生成方法、装置和介质
JP7548450B2 (ja) 2021-10-08 2024-09-10 日本電信電話株式会社 安全性評価指標計算装置、安全性評価指標計算方法、及びプログラム

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105760780A (zh) * 2016-02-29 2016-07-13 福建师范大学 基于路网的轨迹数据隐私保护方法
US20160203130A1 (en) * 2013-08-30 2016-07-14 Unsilo A/S Method and system for identifying and evaluating semantic patterns in written language
CN105912616A (zh) * 2016-04-07 2016-08-31 电子科技大学 一种增强的基于轨迹重构的隐私保护方法
US20180307854A1 (en) * 2017-04-25 2018-10-25 Sap Se Tracking privacy budget with distributed ledger
CN109840714A (zh) * 2019-02-19 2019-06-04 浙江师范大学 地理不可区分保护下的基于数据质量的签到激励机制方法
CN110727959A (zh) * 2019-10-15 2020-01-24 南京航空航天大学 一种基于聚类的差分隐私轨迹数据保护方法
CN110851868A (zh) * 2019-11-14 2020-02-28 陕西师范大学 一种用于轨迹数据发布的位置代表元生成方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160203130A1 (en) * 2013-08-30 2016-07-14 Unsilo A/S Method and system for identifying and evaluating semantic patterns in written language
CN105760780A (zh) * 2016-02-29 2016-07-13 福建师范大学 基于路网的轨迹数据隐私保护方法
CN105912616A (zh) * 2016-04-07 2016-08-31 电子科技大学 一种增强的基于轨迹重构的隐私保护方法
US20180307854A1 (en) * 2017-04-25 2018-10-25 Sap Se Tracking privacy budget with distributed ledger
CN109840714A (zh) * 2019-02-19 2019-06-04 浙江师范大学 地理不可区分保护下的基于数据质量的签到激励机制方法
CN110727959A (zh) * 2019-10-15 2020-01-24 南京航空航天大学 一种基于聚类的差分隐私轨迹数据保护方法
CN110851868A (zh) * 2019-11-14 2020-02-28 陕西师范大学 一种用于轨迹数据发布的位置代表元生成方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MEHMET EMRE GURSOY,ET.AL: "Utility-Aware Synthesis of Differentially Private and Attack-Resilient Location Traces" *
冯登国;张敏;叶宇桐;: "基于差分隐私模型的位置轨迹发布技术研究" *
韩建民;岑婷婷;虞慧群;: "数据表k-匿名化的微聚集算法研究" *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112328714A (zh) * 2020-09-24 2021-02-05 南京航空航天大学 一种基于差分隐私的机场场面轨迹数据发布方法
CN112347509A (zh) * 2020-11-06 2021-02-09 浙江师范大学 基于隐私核心集和staircase机制的轨迹数据发布方法
CN113438603A (zh) * 2021-03-31 2021-09-24 南京邮电大学 一种基于差分隐私保护的轨迹数据发布方法及系统
CN113438603B (zh) * 2021-03-31 2024-01-23 南京邮电大学 一种基于差分隐私保护的轨迹数据发布方法及系统
JP7548450B2 (ja) 2021-10-08 2024-09-10 日本電信電話株式会社 安全性評価指標計算装置、安全性評価指標計算方法、及びプログラム
CN115017440A (zh) * 2022-05-31 2022-09-06 湖南大学 一种基于差分隐私保护的聚合位置数据发布方法
CN115017440B (zh) * 2022-05-31 2024-05-07 湖南大学 一种基于差分隐私保护的聚合位置数据发布方法
CN118132667A (zh) * 2024-05-07 2024-06-04 之江实验室 基于本地化差分隐私的车辆轨迹生成方法、装置和介质

Also Published As

Publication number Publication date
CN111581662B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN111581662B (zh) 轨迹隐私保护方法及存储介质
Zhou et al. Database meets artificial intelligence: A survey
Zhu et al. Differential privacy and applications
Li et al. Achieving differential privacy of trajectory data publishing in participatory sensing
Zhang et al. Privbayes: Private data release via bayesian networks
Gan et al. Privacy preserving utility mining: a survey
Song et al. Efficient alignment between event logs and process models
Ye et al. Anonymizing classification data using rough set theory
CN106021541A (zh) 区分准标识符属性的二次k-匿名隐私保护算法
Li et al. Xuanyuan: An ai-native database.
CN109543445A (zh) 一种基于条件概率分布的隐私保护数据发布方法
Liu et al. Sampling for big data profiling: A survey
Ren et al. A buffer overflow prediction approach based on software metrics and machine learning
Cheng et al. Efficient top-k vulnerable nodes detection in uncertain graphs
CN114092729A (zh) 基于聚类匿名化与差分隐私保护的异构用电数据发布方法
Ouared et al. Deepcm: Deep neural networks to improve accuracy prediction of database cost models
Khader et al. Density-based algorithms for big data clustering using MapReduce framework: A Comprehensive Study
Ding et al. Differentially private publication of streaming trajectory data
Kelkar et al. Subspace clustering—A survey
Chen et al. Global combination and clustering based differential privacy mixed data publishing
Song et al. On saving outliers for better clustering over noisy data
Sinanaj et al. Granulation of large temporal databases: An allan variance approach
Qin et al. Differential private discrete noise adding mechanism: Conditions and properties
Vijayarani et al. Sensitive Outlier Protection in Privacy Preserving Data Mining
Errounda et al. An Analysis of Differential Privacy Research in Location and Trajectory Data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant