CN111460508B - 一种基于差分隐私技术的轨迹数据保护方法 - Google Patents
一种基于差分隐私技术的轨迹数据保护方法 Download PDFInfo
- Publication number
- CN111460508B CN111460508B CN202010290023.6A CN202010290023A CN111460508B CN 111460508 B CN111460508 B CN 111460508B CN 202010290023 A CN202010290023 A CN 202010290023A CN 111460508 B CN111460508 B CN 111460508B
- Authority
- CN
- China
- Prior art keywords
- track
- point
- points
- user
- moment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000005516 engineering process Methods 0.000 title claims description 18
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 44
- 230000008569 process Effects 0.000 claims description 18
- 230000035945 sensitivity Effects 0.000 claims description 11
- 230000007246 mechanism Effects 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000004904 shortening Methods 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 3
- 238000005065 mining Methods 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000029305 taxis Effects 0.000 description 2
- 101150040772 CALY gene Proteins 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Bioethics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于差分隐私技术的轨迹数据保护方法,包括以下步骤:(1)、获取所有用户各自在任意时刻的轨迹点集合;(2)、计算得到所有用户中每个用户在任意时刻的轨迹点的密度参数;(3)、判断轨迹点是否为拐弯点,若为拐弯点则用加权密度参数取代原有密度参数;(4)、选择密度参数最大的多个轨迹点构成任意时刻的初始聚类中心点集,得到各个时刻初始聚类中心点集合;(5)、寻找与每个用户在任意时刻的轨迹点距离最近的中心点,通过聚类算法形成聚类簇,使聚类簇形成聚类收敛,得到每个用户任意t i 时刻的聚类中心点集,进而得到每个用户在所有时刻的聚类中心点集。本发明可降低聚类算法的迭代次数并提高聚类精度。
Description
技术领域
本发明涉及轨迹数据处理方法领域,具体是一种基于差分隐私技术的轨迹数据保护方法。
背景技术
随着GPS技术和群智感知网络的发展,越来越多的车辆轨迹信息得以被精确的收集。车辆的轨迹信息具有很高的分析和挖掘价值。通过对这些数据的分析和挖掘,交通管理部门可以及时发布路况信息,帮助司机选择最优路径规划;城市规划部门通过分析轨迹信息来规划道路,优化城市交通网;开发商通过人流密度分析、行为分析来进行商业决策,在不同地段开发不同功能的商业体。然而,在对车辆轨迹数据的分析、挖掘过程中,容易造成车辆用户个人隐私的泄露,包括车辆用户的家庭地址、健康情况、兴趣爱好等等。因此对车辆轨迹信息的隐私保护的研究得到了越来越多的关注。
发明内容
本发明的目的是提供一种基于差分隐私技术的轨迹数据保护方法,以解决现有技术车辆轨迹分析方法存在的容易泄露隐私的问题。
为了达到上述目的,本发明所采用的技术方案为:
一种基于差分隐私技术的轨迹数据保护方法,其特征在于:包括以下步骤:
(1)、获取所有用户的轨迹数据集,并根据轨迹数据集得到每个用户在所有n个时刻的轨迹位置集,再从每个用户在所有n个时刻的轨迹位置集中得到每个用户在任意ti时刻的轨迹点的位置信息,并由此得到所有用户在任意ti时刻的轨迹点集合,其中1≤i≤n;
(2)、根据步骤(1)得到的所有用户在任意ti时刻的轨迹点集合,计算得到所有用户中每个用户在任意ti时刻的轨迹点的密度参数,并由此得到所有各个用户在任意ti时刻的轨迹点的密度参数;
(3)、根据步骤(1)得到的每个用户在任意ti时刻的轨迹点的位置信息,判断每个用户在任意ti时刻的轨迹点是否为拐弯点,若轨迹点为拐弯点,则对通过步骤(2)计算得到的拐弯点对应的轨迹点的密度参数进行加权,得到拐弯点对应的轨迹点的加权密度参数,并以拐弯点对应的轨迹点的加权密度参数,代替拐弯点对应的轨迹点原先的密度参数作为新的密度参数;
(4)、从通过步骤(2)、步骤(3)计算得到的所有各个用户在任意ti时刻的轨迹点的密度参数中,选择其中密度参数最大的k个轨迹点构成任意ti时刻的初始聚类中心点集,任意ti时刻的初始聚类中心点集中的k个轨迹点分别作为任意ti时刻的初始聚类中心点,重复上述过程得到所有n个时刻的初始聚类中心点集构成的初始聚类中心点集合;
(5)、对于每个用户在任意ti时刻的轨迹点,从步骤(4)中得到的初始聚类中心点集合中所有各个时刻的初始聚类中心点集内,分别寻找与每个用户在任意ti时刻的轨迹点距离最近的中心点,并将针对每个用户所有找到的中心点通过聚类算法形成聚类簇,然后基于差分隐私预算原理和函数敏感度原理,并加入满足拉普拉斯机制的随机噪声,对聚类簇中的中心点进行更新,直至聚类簇形成聚类收敛,由此得到每个用户任意ti时刻的聚类中心点集,重复上述过程得到每个用户在所有n个时刻的聚类中心点集,并由所有n个时刻的聚类中心点集构成每个用户完整的轨迹数据中心点集合。
所述的一种基于差分隐私技术的轨迹数据保护方法,其特征在于:步骤(1)中,轨迹数据集通过采集每个用户在地图上的轨迹数据得到,轨迹位置集为根据地图上的轨迹数据得到的每个时刻的轨迹点经纬度位置的集合,轨迹点的位置信息即为轨迹点的经纬度信息。
所述的一种基于差分隐私技术的轨迹数据保护方法,其特征在于:步骤(3)中,采用多点联合判断法判断轨迹点是否为拐弯点。
所述的一种基于差分隐私技术的轨迹数据保护方法,其特征在于:步骤(3)中,通过以拐弯点的加权密度参数代替其原有密度参数,以在步骤(4)中使拐弯点更大概率成为初始聚类中心点。
所述的一种基于差分隐私技术的轨迹数据保护方法,其特征在于:步骤(5)中,聚类算法采用k-means算法形成聚类簇。
所述的一种基于差分隐私技术的轨迹数据保护方法,其特征在于:步骤(5)中,将n个时刻用户对应的聚类中心点集点串联,即得到该用户新的轨迹位置。
结合差分隐私在隐私保护中的优越性,通过将基于聚类的轨迹隐私保护方法与差分隐私技术结合,本发明提出一种基于差分隐私技术的轨迹数据保护方法,具有以下优点:
1)考虑到传统k-means算法等聚类方法的初始聚类中心点是随机生成的,导致聚类迭代次数较多、聚类精度低等不足,本发明将高密度位置点和拐弯点作为初始聚类中心点,可降低聚类算法的迭代次数并提高聚类精度。
2)对聚类中心点添加满足拉普拉斯的噪声,发布加噪后的聚类中心点作为轨迹坐标,在满足隐私需求的前提下减小了发布误差,提高了轨迹数据的可用性。
附图说明
图1是本发明方法流程图。
图2是本发明具体实施方式中差分隐私作用下轨迹点的变化情况示意图。
图3是本发明具体实施方式中不同阈值下的拐弯点数目示意图。
图4是本发明具体实施方式中不同隐私预算下的相对误差比示意图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
如图1所示,本发明包括以下步骤:
(1)、获取所有用户的轨迹数据集,并根据轨迹数据集得到每个用户在所有n个时刻的轨迹位置集,再从每个用户在所有n个时刻的轨迹位置集中得到每个用户在任意ti时刻的轨迹点的位置信息,并由此得到所有用户在任意ti时刻的轨迹点集合,其中1≤i≤n,具体说明如下:
轨迹数据集通过采集每个用户在地图上的轨迹数据得到,对于一个包含m个用户轨迹的轨迹数据集T={tr1,tr2,...,trm},单个用户的轨迹均由所有n个时刻上的位置经纬度坐标构成,因此每个用户的轨迹位置集是每个用户轨迹数据的所有n个时刻的轨迹点经纬度位置的集合,每个用户的轨迹位置集表示为trA={(p1,t1),...,(pi,ti),...,(pn,tn)}(1≤i≤n),其中A=1,2…m。轨迹点的位置信息即为轨迹点的经纬度信息,每个用户在任意ti时刻的轨迹点pi表示为pi=(xi,yi)(1≤i≤n),其中xi和yi分别表示轨迹点的经纬度信息,而ti表示轨迹点pi的时间刻度。
(2)、根据步骤(1)得到的所有用户在任意ti时刻的轨迹点集合,计算得到所有用户中每个用户在任意ti时刻的轨迹点的密度参数,并由此得到所有各个用户在任意ti时刻的轨迹点的密度参数,具体说明如下:
对于任意ti时刻所有用户的轨迹点集合,取其中密度参数最大的k个轨迹点作为初始聚类中心点,以此达到缩短聚类迭代次数,提高聚类精度的目的。每个用户任意ti时刻轨迹点pi的密度参数Densr(pi)按照公式(1)计算:
公式(1)中,r为有效密度半径,N为任意ti时刻该有效密度半径内所包含的所有m个用户的轨迹点的总数,轨迹点pj为所有用户在任意ti时刻的轨迹点中以轨迹点pi为圆心、半径为r的圆内的第j个轨迹数据点,Dist(pi,pj)为轨迹点pi和pj的欧氏距离。
(3)、根据步骤(1)得到的每个用户在任意ti时刻的轨迹点的位置信息,判断每个用户在任意ti时刻的轨迹点是否为拐弯点,若轨迹点为拐弯点,则对通过步骤(2)计算得到的拐弯点对应的轨迹点的密度参数进行加权,得到拐弯点对应的轨迹点的加权密度参数,并以拐弯点对应的轨迹点的加权密度参数,代替拐弯点对应的轨迹点原先的密度参数作为新的密度参数。
本发明中,采用文献(徐尽,田胜利.基于拐点判断法的GPS定位数据精简[J].计算机工程,2010,36(07):268-269+272)提出的多点联合判断法判断轨迹点是否为拐弯点,判断过程如下:
对于任意轨迹位置点pi=(xi,yi),在实际位置采集过程中,由于根据采集时间间隔的不同,拐弯点在拐弯的过程中与前一个时刻的偏移角度为一不确定值。采集时间间隔较小,则测得的与前一个时刻位置的偏移角度较小;若采集时间间隔较大,则测得的偏移角度也偏大。同时,路口大的拐弯较平缓,路口小的拐弯较急。为了增大拐弯点检测的准确度,本发明采用多点联合判断法进行判断,轨迹点pi点处的拐弯角度如公式(2):
为了提高拐弯点判定的准确性,本发明根据轨迹点pi前后共五个点的拐弯角度之和,来判定是否处于拐弯状态,也即公式(3)进行判断:
α(xi,yi)=(αi-2-αi-1)+(αi-1-αi)+(αi-αi+1)=αi-2-αi+1 (3),
当计算得到的α(xi,yi)大于某一预设阈值θ时,则确定该轨迹点为拐弯点。
本发明中,通常情况下,可按照公式(1)求出每个轨迹点的密度参数,取最大的k个作为k-means等聚类算法的初始聚类中心。为更加准确的反应车辆的行驶轨迹,可考虑能将车辆拐弯点作为聚类中心点输出,并对车辆行驶轨迹上的拐弯点加权,提高其密度权重,使其有更大概率作为初始聚类中心点输出。本发明引入了拐弯状态的轨迹数据点的加权密度概念,且将轨迹数据点中的拐弯点pi的加权密度WDensr(pi)定义为如公式(4)所示:
对于有效密度半径r,一般用轨迹步长来代替。轨迹步长按照公式(5)计算:
公式(5)中m为轨迹数据集的用户数目,Li是第i条轨迹的长度,qi为每条轨迹上的轨迹点。
(4)、从通过步骤(2)、步骤(3)计算得到的所有用户在ti时刻的轨迹点的密度参数中,选择其中密度参数最大的k个轨迹点构成ti时刻的初始聚类中心点集,重复上述过程得到所有n个时刻的初始聚类中心点集构成的初始聚类中心点集合。
本发明针对k-means等聚类算法对初始聚类中心点采用随机选取会导致聚类迭代次数较多的问题,提出一种适用于轨迹数据集聚类的初始中心点选择算法。首先判断轨迹数据集中的拐弯点,然后通过公式(1)求出各个轨迹点的密度参数,若该轨迹点为拐弯点则通过公式(4)求得加权后的密度参数。这样拐弯点可以更大概率的成为初始聚类中心点,进而减小聚类误差。然后将ti时刻密度参数最大的k个轨迹点作为初始聚类中心点集Oi。重复上述过程,直到找出n个时刻的初始聚类中心点集合O={O1,O2,...,On}。
(5)、对于所有用户在任意ti时刻的轨迹点,从步骤(4)中得到的初始聚类中心点集合中所有各个时刻的初始聚类中心点集内,分别寻找与每个用户在任意ti时刻的轨迹点距离最近的中心点,并将针对每个用户所有找到的中心点通过聚类算法形成聚类簇,然后基于差分隐私预算原理和函数敏感度原理,并加入满足拉普拉斯机制的随机噪声,对聚类簇中的中心点进行更新,直至聚类簇形成聚类收敛,由此得到任意ti时刻的聚类中心点集,重复上述过程得到所有用户在所有n个时刻的聚类中心点集,并由用户在每个时刻对应的聚类中心点构成每个用户完整的轨迹数据中心点集合,具体过程如下:
在步骤(4)得到的初始聚类中心点集合O中的所有各个时刻的初始聚类中心点集内,对于每个用户任意ti时刻的轨迹点pi,寻找与其距离最近的中心点ch,并通过k-means算法将中心点ch形成聚类簇Sh(1≤h≤k),计算簇内点之和和数目numh=|Sh|,由差分隐私预算ε和函数敏感度Δf,按照:c′h=sum′h/num′h得到中心点c′h,其中有:
sum′h=sumh+υh,num′h=numh+υh (6),
为得到加噪后的sum′h和num′h,随机噪声υh满足υh~Lap(b),且有b=Δf/ε。重复上述过程直至聚类收敛,收敛后得到第i时刻k个加噪后的聚类中心点集Ci={c1,c2,...,ck},则n个时刻完整的轨迹数据中心点集合为C={C1,C2,...,Cn}。
从集合C中找出用户任意时刻真实轨迹所对应的中心点,用对应的加噪后的中心点来代替原始轨迹信息输出。
用户的轨迹即每个时刻所处聚类的中心点串联起来,通过将每个用户完整的轨迹数据中心点集合中的所有n个时刻的聚类中心点集点串联,即得到该用户新的轨迹位置。
本发明所涉及的几个定义有:ε-位置差分隐私(即本发明差分隐私预算)、全局敏感度Δf和拉普拉斯机制,同时本发明给出差分隐私有两个重要的性质:序列组合性和并行组合性。具体说明如下:
定义1ε-位置差分隐私。对于2个位置数据集D和D′,假定两者最多只有一条位置信息不同,即两者的线性相异距离|D-D′|≤1,M为随机查询函数,并具有差分隐私保护,Rang(M)代表M的取值范围,若D和D′在查询函数M下得到的任意位置满足:
Pr[M(D)∈L]≤Pr[M(D′)∈L]eε (7),
则称查询函数M满足ε-位置差分隐私,其中,Pr[·]表示位置信息被泄露的概率,由算法M的随机性控制;ε为隐私保护预算,ε取值越小则隐私保护度越高。
定义2全局敏感度。对于任意函数f:D→Rd,f的全局敏感度定义为:
其中D和D′表示最多相差一条位置信息的位置数据集,||f(D)-f(D′)||1为f(D)和f(D′)之间的一阶范数值。
需要说明的是,全局敏感度是差分隐私保护算法的一个重要度量指标,它的大小只和函数f本身有关,与数据集大小无关。
定义3拉普拉斯机制。给定位置数据集D,对任意函数f:D→Rd,其敏感度为Δf,若函数f输出结果满足:
M(D)=f(D)+Lap(b) (9),
则称函数f满足ε-差分隐私,其中Lap(b)为随机噪声,尺度参数b为全局敏感度与隐私预算的比值Δf/ε,噪声量的大小与全局敏感度Δf成正比,与隐私预算ε成反比。
差分隐私保护的实现机制主要有拉普拉斯机制和指数机制,其中拉普拉斯机制多用于数值型数据,指数机制一般用于非数值型数据。本发明采用拉普拉斯加噪机制。差分隐私有两个重要的性质,分别为序列组合性和并行组合性:
性质1序列组合性。设有n个随机算法k1,k2,...,kn,其隐私保护预算分别为ε1,ε2,...,εn,则对于某一数据集D,有这n个随机算法序列组合成的算法k(k1(D),k2(D),...,kn(D))满足差分隐私。
性质2并行组合性。设有n个随机算法k1,k2,...,kn,其隐私保护预算分别为ε1,ε2,...,εn,则对n个交集为空集的数据集D1,D2,...,Dn,由这n个随机算法并行组合成的算法k(k1(D),k2(D),...,kn(D))满足差分隐私保护。
为了更直观的表述本发明所提轨迹隐私保护算法,下面通过表1、表2和图2来举例说明。
表1原始轨迹位置
t<sub>1</sub> | t<sub>2</sub> | t<sub>3</sub> | t<sub>4</sub> | t<sub>5</sub> | t<sub>6</sub> | |
A | A1 | A2 | A3 | A4 | A5 | A6 |
B | B1 | B2 | B3 | B4 | B5 | B6 |
C | C1 | C2 | C3 | C4 | C5 | C6 |
D | D1 | D2 | D3 | D4 | D5 | D6 |
E | E1 | E2 | E3 | E4 | E5 | E6 |
表2差分隐私保护后的轨迹位置
表1和表2分别给出了n=5个用户、m=6个时刻的原始轨迹数据集和隐私保护后的轨迹集,用户的具体位置如tu所示。以A用户为例,其原始轨迹L(A):A1→A2→A3→A4→A5→A6,通过本发明所提的轨迹隐私保护算法,A用户在每个时刻与周围用户聚类,产生一个聚类中心位置,并对中心进行加噪使其满足差分隐私,用加噪后的聚类中心点来代替该聚类簇内用户的真实位置。产生如表2所示的隐私轨迹L*(A):L*11→L*21→L*31→L*42→L*51→L*63。对于某一时刻未采集的用户轨迹点,这里采用局部轨迹相似度来判断该点的位置,例如图2中t3时刻C用户的轨迹位置未采集到,对其前后两个时刻的位置点和其他轨迹进行判断,发现其和A用户的局部轨迹相似度最高,则取A用户在t3时刻发布的轨迹点L*33作为C用户在t3时刻发布的位置点。
本发明隐私性分析
下面将对本发明所提方法的隐私性进行分析,并证明对sumjh和numjh的加噪过程满足差分隐私。
在通过轨迹隐私保护算法对tj时刻每个簇内的sumj和numj分别加噪时,记第h个簇的sumjh分配的隐私预算为εs,而numjh分配的隐私预算为εn。设A为加噪算法,sumjh和sum′jh为相差最多一条记录的数据集,A(sumjh)和A(sum′jh)为加噪后的结果,为加噪后的所有结果。则有,
由上式可得,对sumjh和numjh的加噪过程均满足差分隐私,且所需隐私预算分别为εs和εn。假设对于整个轨迹数据集的隐私预算为ε,且整个轨迹有N个时刻,则在每个时刻分配到的隐私预算为εj=ε/N;而每个时刻又包括K个簇,每个簇分配到的隐私预算为εj/K,由前面的证明得ε/NK=εs+εn。根据差分隐私的并行组合性,每个簇的加噪过程都满足ε/NK-差分隐私保护。再根据差分隐私的序列组合性,可以证明整个轨迹数据集的加噪过程满足差分隐私保护,即本发明所提轨迹隐私保护算法满足ε-差分隐私保护。
由于隐私保护算法的迭代次数为一未知值,所以选择在迭代过程中需逐步调高参数,第一次迭代是ε/2,第二次是ε/4,即每次消耗隐私预算的一半,直至聚类结果收敛。
本发明实验验证
本发明将进行所提方法的有效性的验证,并和现有DPk-means、DP-DBScan算法进行性能的比较。仿真实验在MATLAB环境中在下进行,选取某日12:00到14:00,m=537辆北京市出租车的运行轨迹,每五分钟采集一次车辆位置信息,共得到6234个轨迹点。
首先进行不同阈值θ下的拐弯点数目的比较,实验结果如图3所示。从图3中可以看到,选择不同的阈值精度会得到不同的拐弯点筛选结果,随着阈值θ度数的减小,筛选出来的拐弯点数目变得越来越多。由于阈值θ的降低,一方面提高了拐弯点筛选率,另一方面也占用更多的系统空间,影响运行效率。因此接下来的实验统一取θ=6°,在保证拐弯点筛选完整的基础上尽可能降低运行时间。
通过对经纬度的归一化然后,采用文献(Lee,SuiangShyan,Lin.An acceleratedK-means clustering algorithm using selection and erasure rules[J].浙江大学学报:c卷英文版,2012,13(10):761-768.)给出的评价指标误差平方和(Sum of the SquaredErrors,SSE)来确定聚类簇数k的取值,通过计算不同k值下的SSE观察得到最佳聚类数。这里ε分别取0.5和0.8,并对算法运行100次取平均值作为输出的结果进行比较分析。轨迹数据库的可用性一般使用文献(霍峥,孟小峰.一种满足差分隐私的轨迹数据发布方法[J].计算机学报,2018.)提出的平均相对误差Error来衡量,即
表3给出了三种轨迹隐私保护算法性能比较。从表3可以看出,当隐私预算ε取0.8时,本发明所提算法的准确率比DP-DBScan算法提高了约6个百分点,比DPk-means算法提高了约9个百分点。当ε取0.5时,本发明所提算法的准确率比DP-DBScan算法和DPk-means算法分别提高了约4个百分点和14个百分点,表明本方法对于初始聚类中心的选取合理有效,在保证隐私强度的基础上更加精确。
表3三种轨迹隐私保护算法性能比较
不同隐私预算下的轨迹误差率如图4所示,与DPk-means算法、DP-DBScan算法进行对比分析发现。当隐私保护预算ε取值0.5-2.5时,相对误差值比DPk-means算法减小9%-3%,比DP-DBScan算法减小6%-1%。随着隐私预算的增大误差越来越小,误差越小则数据可用性越高,这说明本文手提算法在相同隐私预算ε下具有更高的数据可用性。
本发明所述的实施例仅仅是对本发明的优选实施方式进行的描述,并非对本发明构思和范围进行限定,在不脱离本发明设计思想的前提下,本领域中工程技术人员对本发明的技术方案作出的各种变型和改进,均应落入本发明的保护范围,本发明请求保护的技术内容,已经全部记载在权利要求书中。
Claims (5)
1.一种基于差分隐私技术的轨迹数据保护方法,其特征在于:包括以下步骤:
(1)、获取所有用户的轨迹数据集,并根据轨迹数据集得到每个用户在所有n个时刻的轨迹位置集,再从每个用户在所有n个时刻的轨迹位置集中得到每个用户在任意ti时刻的轨迹点的位置信息,并由此得到所有用户在任意ti时刻的轨迹点集合,其中1≤i≤n;
(2)、根据步骤(1)得到的所有用户在任意ti时刻的轨迹点集合,计算得到所有用户中每个用户在任意ti时刻的轨迹点的密度参数,并由此得到所有各个用户在任意ti时刻的轨迹点的密度参数,具体说明如下:
对于任意ti时刻所有用户的轨迹点集合,取其中密度参数最大的k个轨迹点作为初始聚类中心点,以此达到缩短聚类迭代次数,提高聚类精度的目的,每个用户任意ti时刻轨迹点pi的密度参数Densr(pi)按照公式(1)计算:
公式(1)中,r为有效密度半径,N为任意ti时刻该有效密度半径内所包含的所有m个用户的轨迹点的总数,轨迹点pj为所有用户在任意ti时刻的轨迹点中以轨迹点pi为圆心、半径为r的圆内的第j个轨迹数据点,Dist(pi,pj)为轨迹点pi和pj的欧氏距离;
(3)、根据步骤(1)得到的每个用户在任意ti时刻的轨迹点的位置信息,判断每个用户在任意ti时刻的轨迹点是否为拐弯点,若轨迹点为拐弯点,则对通过步骤(2)计算得到的拐弯点对应的轨迹点的密度参数进行加权,得到拐弯点对应的轨迹点的加权密度参数,并以拐弯点对应的轨迹点的加权密度参数,代替拐弯点对应的轨迹点原先的密度参数作为新的密度参数;
引入了拐弯状态的轨迹数据点的加权密度概念,且将轨迹数据点中的拐弯点pi的加权密度WDensr(pi)定义为如公式(4)所示:
对于有效密度半径r,用轨迹步长来代替,轨迹步长按照公式(5)计算:
公式(5)中m为轨迹数据集的用户数目,Li是第i条轨迹的长度,qi为每条轨迹上的轨迹点;
(4)、从通过步骤(2)、步骤(3)计算得到的所有各个用户在任意ti时刻的轨迹点的密度参数中,选择其中密度参数最大的k个轨迹点构成任意ti时刻的初始聚类中心点集,任意ti时刻的初始聚类中心点集中的k个轨迹点分别作为任意ti时刻的初始聚类中心点,拐弯点以更大概率成为初始聚类中心点,重复上述过程得到所有n个时刻的初始聚类中心点集构成的初始聚类中心点集合;
(5)、对于每个用户在任意ti时刻的轨迹点,从步骤(4)中得到的初始聚类中心点集合中所有各个时刻的初始聚类中心点集内,分别寻找与每个用户在任意ti时刻的轨迹点距离最近的中心点,并将针对每个用户所有找到的中心点通过聚类算法形成聚类簇,然后基于差分隐私预算原理和函数敏感度原理,并加入满足拉普拉斯机制的随机噪声,对聚类簇中的中心点进行更新,直至聚类簇形成聚类收敛,由此得到每个用户任意ti时刻的聚类中心点集,重复上述过程得到每个用户在所有n个时刻的聚类中心点集,并由所有n个时刻的聚类中心点集构成每个用户完整的轨迹数据中心点集合。
2.根据权利要求1所述的一种基于差分隐私技术的轨迹数据保护方法,其特征在于:步骤(1)中,轨迹数据集通过采集每个用户在地图上的轨迹数据得到,轨迹位置集为根据地图上的轨迹数据得到的每个时刻的轨迹点经纬度位置的集合,轨迹点的位置信息即为轨迹点的经纬度信息。
3.根据权利要求1所述的一种基于差分隐私技术的轨迹数据保护方法,其特征在于:步骤(3)中,采用多点联合判断法判断轨迹点是否为拐弯点。
4.根据权利要求1所述的一种基于差分隐私技术的轨迹数据保护方法,其特征在于:步骤(5)中,聚类算法采用k-means算法形成聚类簇。
5.根据权利要求1所述的一种基于差分隐私技术的轨迹数据保护方法,其特征在于:步骤(5)中,将n个时刻用户对应的聚类中心点集点串联,即得到该用户新的轨迹位置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010290023.6A CN111460508B (zh) | 2020-04-14 | 2020-04-14 | 一种基于差分隐私技术的轨迹数据保护方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010290023.6A CN111460508B (zh) | 2020-04-14 | 2020-04-14 | 一种基于差分隐私技术的轨迹数据保护方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111460508A CN111460508A (zh) | 2020-07-28 |
CN111460508B true CN111460508B (zh) | 2022-08-02 |
Family
ID=71684558
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010290023.6A Active CN111460508B (zh) | 2020-04-14 | 2020-04-14 | 一种基于差分隐私技术的轨迹数据保护方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111460508B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112347509B (zh) * | 2020-11-06 | 2022-11-15 | 浙江师范大学 | 基于隐私核心集和staircase机制的轨迹数据发布方法 |
CN112559593A (zh) * | 2020-12-14 | 2021-03-26 | 长安大学 | 一种基于标签聚类的本地化差分隐私保护方法 |
CN112767693A (zh) * | 2020-12-31 | 2021-05-07 | 北京明朝万达科技股份有限公司 | 一种车辆行驶数据处理方法及装置 |
CN113554891B (zh) * | 2021-07-19 | 2022-07-01 | 江苏南大苏富特智能交通科技有限公司 | 一种基于公交gps轨迹构建电子地图路网的方法 |
CN113672975A (zh) * | 2021-08-03 | 2021-11-19 | 支付宝(杭州)信息技术有限公司 | 一种用户轨迹的隐私保护方法和装置 |
CN113779633B (zh) * | 2021-09-16 | 2024-04-09 | 咪咕文化科技有限公司 | 一种数据处理方法、装置及设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103532701A (zh) * | 2013-10-16 | 2014-01-22 | 南通纺织职业技术学院 | 一种数值型数据的加密、解密方法 |
CN104486073A (zh) * | 2014-12-23 | 2015-04-01 | 南通大学 | 一种字符型数据的加密、解密方法 |
CN109472338A (zh) * | 2018-11-19 | 2019-03-15 | 南通大学 | 一种商品防伪二维码的批量生成方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003152706A (ja) * | 2001-11-12 | 2003-05-23 | Toshiba Information Systems (Japan) Corp | 暗号生成装置、暗号復号装置、暗号生成プログラム、暗号復号プログラム、認証システム、電子装置 |
-
2020
- 2020-04-14 CN CN202010290023.6A patent/CN111460508B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103532701A (zh) * | 2013-10-16 | 2014-01-22 | 南通纺织职业技术学院 | 一种数值型数据的加密、解密方法 |
CN104486073A (zh) * | 2014-12-23 | 2015-04-01 | 南通大学 | 一种字符型数据的加密、解密方法 |
CN109472338A (zh) * | 2018-11-19 | 2019-03-15 | 南通大学 | 一种商品防伪二维码的批量生成方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111460508A (zh) | 2020-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111460508B (zh) | 一种基于差分隐私技术的轨迹数据保护方法 | |
Hu et al. | Distance indexing on road networks | |
Lee et al. | Trajectory clustering: a partition-and-group framework | |
CN111189459B (zh) | 一种定位信息与道路匹配的方法和装置 | |
CN111898315B (zh) | 基于分形—机器学习混合模型的滑坡易发性评估方法 | |
US20140156606A1 (en) | Method and System for Integrating Data Into a Database | |
CN105843829B (zh) | 一种基于分层模型的大数据可信性度量方法 | |
CN111209457B (zh) | 一种目标典型活动模式偏离告警方法 | |
CN111125764B (zh) | 一种面向隐私保护的用户轨迹生成方法及系统 | |
CN110162997B (zh) | 基于插值点的匿名隐私保护方法 | |
CN112116952B (zh) | 基于扩散及混沌局部搜索的灰狼优化算法的基因选择方法 | |
CN109033170A (zh) | 停车场的数据修补方法、装置、设备及存储介质 | |
CN112348079B (zh) | 数据降维处理方法、装置、计算机设备及存储介质 | |
CN111639878A (zh) | 一种基于知识图谱构建的滑坡风险预测方法及系统 | |
Wu et al. | GLUE: a parameter-tuning-free map updating system | |
Buchin et al. | Improved map construction using subtrajectory clustering | |
CN114386466B (zh) | 一种用于脉冲星搜寻中候选体信号挖掘的并行的混合聚类方法 | |
Han et al. | Algorithms for Trajectory Points Clustering in Location-Based Social Networks | |
CN104778480A (zh) | 一种基于局部密度和测地距离的分层谱聚类方法 | |
Sharif et al. | CaFIRST: A context-aware hybrid fuzzy inference system for the similarity measure of multivariate trajectories | |
Joshi et al. | A dissimilarity function for clustering geospatial polygons | |
US20220188580A1 (en) | System and method for computing region centers by point clustering | |
CN115545543A (zh) | 多灾种集成的自然灾害风险评估分析系统 | |
Wang et al. | Accurate Detection of Road Network Anomaly by Understanding Crowd's Driving Strategies from Human Mobility | |
Fisher et al. | Modelling class uncertainty in the geodemographic Output Area Classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20231025 Address after: Room 401, 4th Floor, CCF Building, 600 Xiangrong Road, High Speed Rail New City, Xiangcheng District, Suzhou City, Jiangsu Province, 215133 Patentee after: Digital Suzhou Construction Co.,Ltd. Address before: 215009 CREE Road, Suzhou hi tech Zone, Suzhou, Jiangsu Province, No. 1 Patentee before: SUZHOU University OF SCIENCE AND TECHNOLOGY |
|
TR01 | Transfer of patent right |