CN111125764B - 一种面向隐私保护的用户轨迹生成方法及系统 - Google Patents

一种面向隐私保护的用户轨迹生成方法及系统 Download PDF

Info

Publication number
CN111125764B
CN111125764B CN201911345902.8A CN201911345902A CN111125764B CN 111125764 B CN111125764 B CN 111125764B CN 201911345902 A CN201911345902 A CN 201911345902A CN 111125764 B CN111125764 B CN 111125764B
Authority
CN
China
Prior art keywords
data
tuple
privacy
grid
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911345902.8A
Other languages
English (en)
Other versions
CN111125764A (zh
Inventor
丁晓锋
金海�
周文翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201911345902.8A priority Critical patent/CN111125764B/zh
Publication of CN111125764A publication Critical patent/CN111125764A/zh
Application granted granted Critical
Publication of CN111125764B publication Critical patent/CN111125764B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Traffic Control Systems (AREA)
  • Storage Device Security (AREA)

Abstract

本发明公开了一种面向隐私保护的用户轨迹生成方法及系统,属于数据安全领域。包括:将时间段t对应的位置元组数据流所在区域范围划分为层次网格,采用Geohash算法对各个网格编码,得到每个位置数据元组的编码字符串;根据划分后的网格和所有位置数据元组的编码字符串,生成元组数据流对应前缀层次树;将元组数据流划分为k段,根据隐私预算值对每段数据流进行采样,得到采样后的位置元组数据集
Figure DDA0002331223160000013
根据差分隐私指数机制,将各个采样后的位置元组泛化到对应划分区域内,得到泛化后的位置元组数据集
Figure DDA0002331223160000011
通过隐私预算,对处于相同划分网格内的元组数据
Figure DDA0002331223160000012
合并得到用户轨迹。做到用户数据隐私的保密性的同时,保证一定的数据可用性以及流数据处理的高效性。

Description

一种面向隐私保护的用户轨迹生成方法及系统
技术领域
本发明属于数据安全领域,更具体地,涉及一种面向隐私保护的用户轨迹生成方法及系统。
背景技术
近年来,随着GPS移动设备、智能手机、基于位置的社交网络和谷歌地图等交通导航服务的大力普及与发展,产生了大量基于用户的移动轨迹数据。利用第三方服务挖掘这些数据,以实现城市规划、出行模式分析、路线推荐和交通管理等目的。但是,轨迹数据往往蕴含了移动用户在时间、空间维度上的丰富信息,发布轨迹数据引发了合理的隐私担忧。针对轨迹数据的推理攻击,不仅可得出用户在什么时间去过什么位置,还可以分析出目标用户的家庭住址、工作地点等敏感位置信息,甚至可推测出用户的生活习惯、健康状态、宗教信仰等隐私信息。研究发现即使是完全的伪匿名化,通过一个外部数据集或者额外的背景知识足以高精度地重新识别个体。因此,传统的发布轨迹数据集的方法可能会造成隐私泄露,需要探索保护隐私的轨迹数据发布的新途径。
轨迹数据也是流数据的一种,即就是时空环境下,通过对一个或多个移动对象运动过程的采样所获得的数据信息序列,包括采样点位置、采样时间等。这些采样点数据信息根据采样先后顺序构成了轨迹数据流。对于轨迹数据隐私保护处理来说,需要讲求的是隐私性、可用性、高效性三者的动态平衡。由于轨迹流数据自身的高速、海量、不确定性(位置数据在每个单位时间到来的规模以及形式都是不可预知的)等特点,使得在轨迹流数据上做到实时隐私保护处理显得尤为困难。目前,针对轨迹数据信息的隐私保护的方法大致可以分为两类:
基于数据匿名化的隐私保护方法,如基于轨迹数据的k匿名技术,其核心思想为将一条轨迹和其他k-1条相似的轨迹泛化为一个匿名区域,使得每个区域至少覆盖k个用户,从而使得攻击者成功识别特定的轨迹信息的概率最高为1/k,以此满足匿名需求以达到隐私保护的目的。但这种k匿名技术存在一些漏洞和缺点,攻击者可以利用背景知识对数据集进行攻击,这种基于分区的轨迹隐私保护数据发布模型由于其确定性,很难抵抗这种类型的攻击。其可用性较高,而且其算法原理相对简单,但无法在理论上证明其绝对安全,只能对已有的方案进行改进和完善。
基于数据扰动的隐私保护方法,如差分隐私技术,它的原理是对原始数据、对原始数据的转换或者是对统计结果添加噪音来达到隐私保护效果。即使攻击者已经掌握除某一条记录之外的所有记录的信息,该记录的隐私也无法被披露。在攻击者在拥有最大背景知识条件下,系统仍能抵御各种攻击。也就是说,这个机制保证了一个数据集的每个个体的隐私信息都不被泄露,即使在数据集中添加或删除一条记录都不会对输出结果产生影响,但数据集整体的统计学信息比如均值,方差等却可以被外界了解。隐私性和可用性在不同的应用场景中难以做到更好的平衡。
发明内容
针对现有技术的缺陷和改进需求,本发明提供了一种面向隐私保护的用户轨迹生成方法及系统,其目的在于做到用户数据隐私的保密性的同时,保证一定的数据可用性以及流数据处理的高效性。
为实现上述目的,按照本发明的第一方面,提供了一种面向隐私保护的用户轨迹生成方法,该方法包括以下步骤:
S1.将时间段t对应的位置元组数据流S所在区域范围划分为层次网格,采用Geohash算法对各个网格进行编码,得到每个位置数据元组的编码字符串;
S2.根据划分后的网格和所有位置数据元组的编码字符串,生成该元组数据流S对应的前缀层次树;
S3.将该元组数据流S划分为k段,根据第一隐私预算值εa对每段数据流进行采样,得到采样后的位置元组数据集{D′i},1≤i≤k;
S4.根据差分隐私的指数机制,将各个采样后的位置元组泛化到对应的划分区域内,得到泛化后的位置元组数据集
Figure BDA0002331223140000031
S5.通过第二隐私预算εb,对处于相同划分网格内的元组数据
Figure BDA0002331223140000032
进行合并得到符合隐私保护要求的用户轨迹。
优选地,所述步骤S2中,隐私保护级别越高,所述前缀层次树中的节点个数越多,所述前缀层次树中的每个节点维护一个键值对pair<str,count>,其中,str表示该网格的地理哈希编码字符,count表示访问该网格的人数的计数值。
优选地,隐私保护级别越高,整体隐私预算ε越小,其中,ε=εab;若用户隐私级别高,εb<εa,否则,εb≥εa
优选地,步骤S3包括以下步骤:
S31.以时间窗口长度T为单位,将用户位置数据流S划分为k个连续的分段<D1,…,Di,…,Dk>;
S32.根据第一隐私预算εa,计算每个分段Di的元组采样隐私预算εa,i,将其分配给对应分段;
S33.根据每段数据流Di分配到的隐私预算εa,i值,计算其对应的采样概率
Figure BDA0002331223140000033
S34.根据采样概率Pi,分别对每个分段数据流Di中的位置数据进行采样,整理采样后得到的流数据元组,并生成采样后的元组数据集<D′1,…,D′i,…,D′k>;
其中,s为界限常数,满足
Figure BDA0002331223140000041
k为分段总数,i为分段编号。
优选地,每个分段Di的元组采样隐私预算εa,i计算公式如下:
Figure BDA0002331223140000042
优选地,步骤S4包括以下步骤:
S41.收集元组数据流S所在路网中的每个位置,组成位置域Γ;
S42.对于每个分段D′i,计算其每一个元组数据x′iz对于在位置域Γ的每个网格rj的权重分数Q(x′iz,rj);
S43.使用差分隐私的指数机制,结合元组x′iz与周围网格的权重分数Q(x′iz,rj),生成相应的泛化概率
Figure BDA0002331223140000043
S44.根据该概率将x′iz泛化到对应的网格rj中,得到元组数据集
Figure BDA0002331223140000044
其中,1≤z≤|D′i|,1≤j≤|Γ|,rj表示位置域Γ第j个网格。
优选地,每个网格rj的权重分数Q(x′iz,rj)计算公式如下:
Figure BDA0002331223140000045
其中,Pt[rj]表示网格节点rj所包含的访问者人数信息,Δdisijz表示网格节点rj与D′i中的元组x′iz所在的网格节点之间的距离,a是小于1的常数,由位置域的面积确定。
优选地,步骤S5包括以下步骤:
S51.根据第二隐私预算εb的值,确定对应的元组合并级别level,该合并级别level代表元组要被合并到的网格的父节点的深度;
S52.定义k个空集合LRi,对于在每段位置数据集
Figure BDA0002331223140000046
中,每个元组数据
Figure BDA0002331223140000047
所在的网格节点的祖先节点anc进行集合的添加操作,即LRi=LRi∪{anc},最后构成对应的祖先节点集合LRi
S53.对于祖先节点集合LRi中的每个元素pij,计算键值对字典
Figure BDA00023312231400000510
S54.根据隐私预算εb和键值对字典
Figure BDA00023312231400000511
计算每个pijn作为合并候选网格的概率
Figure BDA0002331223140000051
S55.使用差分隐私指数机制,根据概率Pijn进行合并网格的选择;
S56.将每段位置数据集
Figure BDA0002331223140000052
中,每个元组数据
Figure BDA0002331223140000053
的经纬度位置信息替换为合并网格的位置信息,直至所有k段位置数据集完成元组合并操作,生成一条符合隐私保护要求的用户轨迹;
其中,pijn表示pij的第n个子节点,1≤n≤|child(pij)|,child(pij)为pij的子节点集合,
Figure BDA0002331223140000054
表示
Figure BDA0002331223140000055
中所有
Figure BDA0002331223140000056
的元素个数计数,并且要满足
Figure BDA0002331223140000057
的元素所在的网格与pijn存在交集关系,
Figure BDA0002331223140000058
表示
Figure BDA0002331223140000059
所在节点的所有兄弟节点的集合。
优选地,步骤S1中的时间段t根据用户查询要求确定,步骤S5中,将生成的轨迹返回给查询用户。
为实现上述目的,按照本发明的第二方面,提供了一种面向隐私保护的用户轨迹生成系统,该系统包括以下:
数据预处理模块,用于将时间段t对应的位置元组数据流S所在区域范围划分为层次网格,采用Geohash算法对各个网格进行编码,得到每个位置数据元组的编码字符串;
前缀层次树生成模块,用于根据划分后的网格和所有位置数据元组的编码字符串,生成该元组数据流S对应的前缀层次树;
元组采样模块,用于将该元组数据流S划分为k段,根据第一隐私预算值εa对每段数据流进行采样,得到采样后的位置元组数据集{D′i},1≤i≤k;
元组泛化模块,用于根据差分隐私的指数机制,将各个采样后的位置元组泛化到对应的划分区域内,得到泛化后的位置元组数据集
Figure BDA0002331223140000061
1≤i≤k;
元组合并模块,用于通过第二隐私预算εb,对处于相同划分网格内的元组数据
Figure BDA0002331223140000062
进行合并得到符合隐私保护要求的用户轨迹。
总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:
(1)本发明将元组采样后的分段数据作为输入,根据差分隐私的指数机制,将各个采样后的位置元组泛化到对应的划分区域内,通过扰乱和模糊原始位置,在确保数据可用性的同时有效避免了用户位置隐私的泄露,保证了隐私性和数据的高可用性。
(2)本发明的元组合并作用于各个单位时间段内,首先计算出每个候选划分网格,然后对处于同一划分网格内的多个元组的位置点进行位置合并操作,从而保证了生成轨迹数据的隐私性。
(3)本发明通过基于时间窗口的元组采样策略,结合隐私预算εa及采样概率,对各个时间窗口内的元组数据进行采样操作,缩减了数据集大小,提高实时运算处理的高效性。
(4)本发明通过对区域范围进行层次网格划分,并根据位置数据流构建前缀层次树,从而有利于元组泛化针对元组数据划分网格的权重分数的计算,并大大提高了实时运算操作的高效性。
附图说明
图1为本发明实施例提供的一种面向隐私保护的用户轨迹数据生成方法流程图;
图2(a)为本发明实施例提供的插入操作前的前缀层次树Pt示意图;
图2(b)为本发明实施例提供的插入操作后的前缀层次树Pt示意图;
图3(a)为本发明实施例提供的Porto数据集中的隐私保护轨迹合成示意图;
图3(b)为本发明实施例提供的T-drive数据集中的隐私保护轨迹合成示意图;
图3(c)为本发明实施例提供的NYC数据集中的隐私保护轨迹合成示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
如图1所示,本发明提供了一种面向隐私保护的用户轨迹数据生成方法,该方法包括以下步骤:
(1)数据清洗
以实时采集到的流式位置数据元组为输入,对这些流式位置数据进行数据清洗,清除无关数据、重复数据或原始数据流中的异常值,得到经过数据清洗后的元组数据流S。
具体来说,实时收集当前数据流的位置数据元组,这些数据元组包括用户/车辆id、时间戳、经纬度等信息。对于每一个元组,通过其与前一个相关元组的经纬度与时间戳的组合,进行合理性分析及判断,来确定当前元组数据的合理性,由此保留正确的位置数据元组。
在本发明实例中,优先将输入数据根据其自身特性进行数据清洗处理,剔除失效及错误数据,使得数据的可用性极大提升。
(2)构建前缀层次树
根据用户的隐私需求及位置数据的特点,对位置数据所在的区域范围进行划分。并使用改进后的Geohash算法对在元组数据流S中的元组进行位置数据转换,最后输出为前缀层次树Pt。在本发明实施例中,有效的元组泛化算法依赖于前缀层次树的构建。前缀层次树的构建可以用于元组泛化中权重分数的计算。具体步骤包括:
(2-1)计算元组数据流S的位置数据的经纬度范围。
(2-2)根据该经纬度范围,使用Geohash算法对元组数据流S所在的路网进行层次网格的划分。
(2-3)使用改进后的Geohash算法对元组数据流S的所有元组进行计算。对于每个元组t=<u,p,j>,其中,p表示用户u在时间戳j的经纬度位置坐标。Geohash算法生成该元组t经转换后的位置字符串p′。
(2-4)根据划分后的网格构建前缀层次树Pt。该前缀树中的每个节点都维护一个键值对pair<str,count>。其中,str表示该网格的地理哈希编码字符,count表示访问者人数的计数。对于每一个转换后的位置数据p′,将前缀层次树Pt中节点的键str为p′的计数count自增加1。最后输出结果为该元组数据流S对应的前缀层次树Pt。
Geohash是一种地址编码算法,将地球视为二维平面并递归分解为较小的子块,其中每个子块在一定的纬度和经度范围内具有相同的编码。结合Geohash算法的特点,可以将位置数据进行层次划分,将其转换为不同长度的字符串表示,而且位置所在网格的范围精度与字符串的长度呈正相关。比如,将一个网格均匀分为10个子网格,而每个子网格又在里面进行划分,继续生成10个更小的子网格,以此类推。改进后的Geohash算法将其作用范围从地球平面缩减到当前数据集的经纬度范围,从而提高了位置编码转换的精度。而且,在改进后的Geohash算法中,树的子节点个数可以根据用户提供的隐私保护级别自适应地调整。
以每个时间段内的传入的轨迹流S作为输入,基于改进的Geohash算法将位置数据进行层次网格划分,然后构建并生成前缀层次树Pt。树的子节点个数根据用户提供的隐私保护级别自适应地调整。用户的隐私需求分为多个保护级别,级别越高,要求树的子节点个数越多。该树中的任何节点都包含两条信息:该网格的地理哈希编码字符串及其访问者人数。该树清楚地显示了访问每个网格的人数。树的高度取决于收集的样本数据集的大小。按照原Geohash算法的定义,此分层树中的每个非叶节点都固定为拥有32个子节点。而在改进后的Geohash算法中,树的子节点个数可以根据用户提供的隐私保护级别自适应地调整。如图2(a)所示,假设当前的前缀树Pt。在时间戳i,服务器收集来自两个不同用户的两个位置元组。这两个元组是((39.8209,116.4404),1547817620,u1)和((39.7802,116.4627),1547817620,u2)。算法将这些转换以不同的精度协调到不同的字符串。例如,可以将第一个元组中的位置转换为“j”,“jr”和“jru”。因此,带有这些字符串的节点的数量都增加了一个。同理,第二个元组被转换为“j”、“jg”和“jgh”。经过这些插入操作之后,更新后的前缀树如图2(b)所示。
(3)元组采样
将自适应隐私预算εa、元组数据流S、给定时间窗口长度T为输入。将元组数据流S划分为k段。根据隐私预算值εa对元组数据进行采样。
隐私预算ε根据用户隐私需求设置。用户的隐私需求分多个保护级别,级别越高,隐私预算ε越小。隐私预算ε可分为元组采样和泛化隐私预算εa、元组合并隐私预算εb。其中,保证两者之和为ε的前提下,若用户隐私级别越高,设定εba,若用户隐私级别越低,设定εb≥εa
在本发明实施例中,有效的元组泛化算法依赖于有效的元组采样策略,这可以通过缩减数据集大小,提高实时运算处理的高效性。具体步骤包括:
(3-1)以时间窗口长度T为单位,将用户位置数据流S划分为k个连续的分段<D1,...,Di,...,Dk>,1≤i≤k。
其中,时间窗口长度T根据用户隐私需求设置。用户的隐私需求分多个保护级别,级别越高,时间窗口长度T越小,使得段数越多,每个段分配到的隐私预算越小。比如,总时间长度为10min的数据,当T=4min时,分为<0-4>、<4-8>、<8-10>这3段。
(3-2)根据元组采样和泛化隐私预算εa,计算每个分段Di的元组采样隐私预算εa,i,将其分配给对应分段。
Figure BDA0002331223140000101
其中,s为界限常数,满足
Figure BDA0002331223140000102
k为分段总数,i为分段编号。
Di的下标i越大,表示距当前时间越远。由其距当前时间的远近,自适应地计算欲添加的隐私预算εa,i值。
(3-3)根据每段数据流Di分配到的隐私预算εa,i值,计算其对应的采样概率Pi
Figure BDA0002331223140000103
(3-4)根据采样概率Pi分别对每个分段数据流Di中的位置数据进行采样,整理采样后得到的流数据元组,并生成采样后的元组数据集<D′1,...,D′i,...,D′k>,1≤i≤k。
采样后得到的D′i目对于原始数据流分段Di来说,元组数量大大减少,极大保证了实时运算处理的高效性。
(4)元组泛化
将采样后的元组数据集<D′1,...,D′i,...,D′k>,1≤i≤k,以及前缀层次树Pt作为输入。使用差分隐私指数机制的思想,将这些坐标元组泛化到它们各自对应的划分网格内。这些操作在模糊了每个元组的位置信息的同时,也确保了数据可用性。结合计算出来的权重分数,将采样后得到的各个元组泛化到其周围的候选划分网格内。最后的输出数据为元组数据集
Figure BDA0002331223140000111
在本发明实施例中,元组泛化步骤通过扰乱和模糊原始位置,在确保数据可用性的同时有效避免了用户位置隐私的泄露,保证了隐私性。具体步骤包括:
(4-1)收集元组数据流S所在路网中的每个位置,组成一个位置域Γ。
(4-2)对于每个分段D′i,计算其每一个元组数据x′iz对于在位置域Γ的每个网格rj的权重分数,其中,1≤i≤k,1≤z≤|D′i|,1≤j≤|Γ|。
Figure BDA0002331223140000112
其中,rj表示位置域Γ第j个网格,Pt[rj]表示网格节点rj所包含的访问者人数信息,Δdisijz表示网格节点rj与D′i中的元组x′iz所在的网格节点之间的距离。通常,a是小于1的常数,该常数由位置域的面积确定。a值越小,权重因距离而减小的速率就越慢。接下来,元组泛化步骤使用差分隐私的指数机制按照概率选择一个候选网格,然后将该网格作为我们期望的新位置并返回。
(4-3)使用差分隐私的指数机制,结合元组x′iz与周围网格的权重分数Q(x′iz,rj),生成相应的泛化概率Pijz。并根据该概率将x′iz泛化到对应的网格rj中。
Figure BDA0002331223140000113
对所有k个段的元组数据进行计算及网格划分后,完成对位置数据集的元组泛化操作。最后的输出结果为元组数据集
Figure BDA0002331223140000114
Figure BDA0002331223140000115
(5)元组合并
以隐私预算εb及位置数据集
Figure BDA0002331223140000116
作为输入数据。根据隐私预算εb选定对应的元组合并级别,对在
Figure BDA0002331223140000121
中处于相同划分网格的元组数据进行位置合并操作。最后合成一条新的符合隐私保护要求的轨迹,作为处理结果反馈给查询的用户。
在本发明实施例中,元组合并步骤作用于各个单位时间段内,对处于同一划分网格内的多个元组的位置点进行位置合并,从而保证了生成轨迹数据的隐私性。具体步骤包括:
(5-1)跟据隐私预算εb的值确定对应的元组合并级别level。该合并级别level代表元组要被合并到的网格的父节点的深度。
(5-2)定义k个空集合LRi,1≤i≤k。对于在每段位置数据集
Figure BDA0002331223140000122
中,每个元组数据
Figure BDA0002331223140000123
所在的网格节点的祖先节点anc进行集合的添加操作(该祖先节点anc的深度要为level),即LRi=LRi∪{anc},最后构成对应的祖先节点集合LRi
(5-3)设child(pij)为pij的子节点集合;
Figure BDA0002331223140000124
表示
Figure BDA0002331223140000125
所在节点的所有兄弟节点的集合;所有对于祖先节点集合LRi中的每个元素pij,计算函数
Figure BDA0002331223140000126
的结果,即键值对字典
Figure BDA0002331223140000127
该键值表示对于每个pij的子节点pijn,1≤n≤|child(pij)|,
Figure BDA0002331223140000128
中所有
Figure BDA0002331223140000129
的元素个数计数,并且要满足
Figure BDA00023312231400001210
的元素所在的网格与pijn存在交集关系。
(5-4)给定的隐私预算εb,以及键值对字典
Figure BDA00023312231400001211
计算每个pijn欲作为合并候选网格的概率Pijn,并使用差分隐私指数机制根据概率进行合并网格的选择。
Figure BDA00023312231400001212
(5-5)将每段位置数据集
Figure BDA00023312231400001213
中,每个元组数据
Figure BDA00023312231400001214
的经纬度位置信息替换为合并网格的位置信息。待所有k段位置数据集完成元组合并操作后,生成一条新的符合隐私保护要求的轨迹。
图3(a)、图3(b)、图3(c)分别表示了在Porto、T-drive、NYC三个不同数据集中的轨迹数据隐私保护发布示例。通过各种轨迹路径直观地比较了原始轨迹和合成轨迹之间的偏离程度。算法将时间窗口大小T设置为5分钟,并在三个数据集中分别选择两个典型轨迹作为示例。经过差分隐私预算处理后。可以看到,随着隐私预算的增加,合成轨迹与原始轨迹的形状更加一致。由于如果隐私预算ε变大,则添加到每个位置的噪声变小,因此原始轨迹与合成轨迹之间的偏差减小。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种面向隐私保护的用户轨迹生成方法,其特征在于,该方法包括以下步骤:
S1.将时间段t对应的位置元组数据流S所在区域范围划分为层次网格,采用Geohash算法对各个网格进行编码,得到每个位置数据元组的编码字符串;
S2.根据划分后的网格和所有位置数据元组的编码字符串,生成该元组数据流S对应的前缀层次树;
S3.将该元组数据流S划分为k段,根据第一隐私预算值εa对每段数据流进行采样,得到采样后的位置元组数据集{D′i},1≤i≤k;
S4.根据差分隐私的指数机制,将各个采样后的位置元组泛化到对应的划分区域内,得到泛化后的位置元组数据集
Figure FDA0003350276640000012
S5.通过第二隐私预算εb,对处于相同划分网格内的元组数据
Figure FDA0003350276640000013
进行合并得到符合隐私保护要求的用户轨迹;
步骤S3包括以下步骤:
S31.以时间窗口长度T为单位,将用户位置数据流S划分为k个连续的分段<D1,…,Di,…,Dk>;
S32.根据第一隐私预算εa,计算每个分段Di的元组采样隐私预算εa,i,将其分配给对应分段,元组采样隐私预算εa,i计算公式如下:
Figure FDA0003350276640000011
S33.根据每段数据流Di分配到的隐私预算εa,i值,计算其对应的采样概率
Figure FDA0003350276640000021
S34.根据采样概率Pi,分别对每个分段数据流Di中的位置数据进行采样,整理采样后得到的流数据元组,并生成采样后的元组数据集<D′1,…,D′i,…,D′k>;
其中,s为界限常数,满足
Figure FDA0003350276640000022
k为分段总数,i为分段编号;
步骤S4包括以下步骤:
S41.收集元组数据流S所在路网中的每个位置,组成位置域Γ;
S42.对于每个分段D′i,计算其每一个元组数据x′iz对于在位置域Γ的每个网格rj的权重分数q(x′iz,rj),计算公式如下:
Figure FDA0003350276640000023
其中,Pt[rj]表示网格节点rj所包含的访问者人数信息,Δdisijz表示网格节点rj与D′i中的元组x′iz所在的网格节点之间的距离,a是小于1的常数,由位置域的面积确定;
S43.使用差分隐私的指数机制,结合元组x′iz与周围网格的权重分数q(x′iz,rj),生成相应的泛化概率
Figure FDA0003350276640000024
S44.根据泛化概率Pijz将x′iz泛化到对应的网格rj中,得到元组数据集
Figure FDA0003350276640000025
其中,1≤z≤|D′i|,1≤j≤|Γ|,rj表示位置域Γ第j个网格;
步骤S5包括以下步骤:
S51.根据第二隐私预算εb的值,确定对应的元组合并级别level,该合并级别level代表元组要被合并到的网格的父节点的深度;
S52.定义k个空集合LRi,对于在每段位置数据集
Figure FDA0003350276640000031
中,每个元组数据
Figure FDA0003350276640000032
所在的网格节点的祖先节点anc进行集合的添加操作,即LRi=LRi∪{anc},最后构成对应的祖先节点集合LRi
S53.对于祖先节点集合LRi中的每个元素pij,计算键值对字典
Figure FDA0003350276640000033
S54.根据隐私预算εb和键值对字典
Figure FDA0003350276640000034
计算每个pijn作为合并候选网格的概率
Figure FDA0003350276640000035
S55.使用差分隐私指数机制,根据概率Pijn进行合并网格的选择;
S56.将每段位置数据集
Figure FDA0003350276640000036
中,每个元组数据
Figure FDA0003350276640000037
的经纬度位置信息替换为合并网格的位置信息,直至所有k段位置数据集完成元组合并操作,生成一条符合隐私保护要求的用户轨迹;
其中,pijn表示pij的第n个子节点,1≤n≤|child(pij)|,child(pij)为pij的子节点集合,
Figure FDA0003350276640000038
表示
Figure FDA0003350276640000039
中所有
Figure FDA00033502766400000310
的元素个数计数,并且要满足
Figure FDA00033502766400000311
的元素所在的网格与pijn存在交集关系,
Figure FDA00033502766400000312
表示
Figure FDA00033502766400000313
所在节点的所有兄弟节点的集合。
2.如权利要求1所述的方法,其特征在于,所述步骤S2中,隐私保护级别越高,所述前缀层次树中的节点个数越多,所述前缀层次树中的每个节点维护一个键值对pair<str,count>,其中,str表示该网格的地理哈希编码字符,count表示访问该网格的人数的计数值。
3.如权利要求1所述的方法,其特征在于,隐私保护级别越高,整体隐私预算ε越小,其中,ε=εab;若用户隐私级别高,εba,否则,εb≥εa
4.如权利要求1至3任一项所述的方法,其特征在于,步骤S1中的时间段t根据用户查询要求确定,步骤S5中,将生成的轨迹返回给查询用户。
5.一种面向隐私保护的用户轨迹生成系统,其特征在于,该系统包括:计算机可读存储介质和处理器;
所述计算机可读存储介质用于存储可执行指令;
所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行权利要求1至4任一项所述的面向隐私保护的用户轨迹生成方法。
CN201911345902.8A 2019-12-23 2019-12-23 一种面向隐私保护的用户轨迹生成方法及系统 Active CN111125764B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911345902.8A CN111125764B (zh) 2019-12-23 2019-12-23 一种面向隐私保护的用户轨迹生成方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911345902.8A CN111125764B (zh) 2019-12-23 2019-12-23 一种面向隐私保护的用户轨迹生成方法及系统

Publications (2)

Publication Number Publication Date
CN111125764A CN111125764A (zh) 2020-05-08
CN111125764B true CN111125764B (zh) 2022-02-15

Family

ID=70501897

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911345902.8A Active CN111125764B (zh) 2019-12-23 2019-12-23 一种面向隐私保护的用户轨迹生成方法及系统

Country Status (1)

Country Link
CN (1) CN111125764B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112307149B (zh) * 2020-10-30 2022-11-25 陕西师范大学 一种具有访问模式保护的空间数据范围查询方法
CN112579921B (zh) * 2020-12-16 2023-03-10 长安大学 基于倒排序索引及前缀树的轨迹索引和查询方法及系统
CN113094497B (zh) * 2021-06-07 2021-09-14 华中科技大学 一种电子健康记录推荐方法及共享边缘计算平台
CN113342283A (zh) * 2021-06-29 2021-09-03 招商局金融科技有限公司 用户位置信息存储方法、装置、电子设备及可读存储介质
CN114091100B (zh) * 2021-11-23 2024-05-03 北京邮电大学 一种满足本地差分隐私的轨迹数据收集方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106650486A (zh) * 2016-09-28 2017-05-10 河北经贸大学 路网环境中的轨迹隐私保护方法
CN109902512A (zh) * 2019-03-04 2019-06-18 南京邮电大学 一种空间数据集的差分隐私的隐私保护方法
CN110110544A (zh) * 2019-03-25 2019-08-09 中国科学院信息工程研究所 Android智能终端隐私保护方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106650486A (zh) * 2016-09-28 2017-05-10 河北经贸大学 路网环境中的轨迹隐私保护方法
CN109902512A (zh) * 2019-03-04 2019-06-18 南京邮电大学 一种空间数据集的差分隐私的隐私保护方法
CN110110544A (zh) * 2019-03-25 2019-08-09 中国科学院信息工程研究所 Android智能终端隐私保护方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Differentially Private Publication of General Time-Serial Trajectory Data";Jingyu Hua et al;《2015 IEEE Conference on Computer Communications (INFOCOM)》;20150824;549-557 *
"Differentially Private Publication Scheme for Trajectory Data";Meng li et al;《2016 IEEE First International Conference on Data Science in Cyberspace (DSC)》;20170302;596-601 *

Also Published As

Publication number Publication date
CN111125764A (zh) 2020-05-08

Similar Documents

Publication Publication Date Title
CN111125764B (zh) 一种面向隐私保护的用户轨迹生成方法及系统
He et al. DPT: differentially private trajectory synthesis using hierarchical reference systems
Thierry et al. Detecting activity locations from raw GPS data: a novel kernel-based algorithm
Al-Hussaeni et al. Privacy-preserving trajectory stream publishing
CN109005515A (zh) 一种基于移动轨迹信息的用户行为模式画像的方法
CN111460508B (zh) 一种基于差分隐私技术的轨迹数据保护方法
CN108874911B (zh) 基于区域环境与犯罪事件数据的疑犯位置预测方法
Jindal et al. Spatiotemporal periodical pattern mining in traffic data
Sun et al. Synthesizing realistic trajectory data with differential privacy
Wang et al. Predictability and prediction of human mobility based on application-collected location data
CN111292356B (zh) 运动轨迹与道路的匹配方法及装置
Chen et al. STLP-GSM: a method to predict future locations of individuals based on geotagged social media data
Ding et al. Differentially private publication of streaming trajectory data
Bermingham et al. Mining place-matching patterns from spatio-temporal trajectories using complex real-world places
Wang et al. Protecting the location privacy of mobile social media users
Ozeki et al. Balancing privacy and utility of spatio-temporal data for taxi-demand prediction
CN114662157A (zh) 社交文本数据流的块压缩感知不可区分性保护方法及装置
Nishino et al. A location predictor based on dependencies between multiple lifelog data
Li et al. A Differentially private hybrid decomposition algorithm based on quad-tree
CN110457940B (zh) 一种基于图论和互信息量的差分隐私度量方法
Haydari et al. Differentially private map matching for mobility trajectories
Shu et al. Uncertainty of Geographic Information and its Support in MADS
CN116975903A (zh) 一种车辆实时轨迹隐私保护方法、设备及存储介质
CN110348469A (zh) 一种基于DeepWalk网络嵌入模型的用户相似度度量方法
Guerra-Balboa et al. Anonymizing trajectory data: Limitations and opportunities

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant