CN111460508B

CN111460508B - 一种基于差分隐私技术的轨迹数据保护方法

Info

Publication number: CN111460508B
Application number: CN202010290023.6A
Authority: CN
Inventors: 陈珍萍; 徐启元; 付保川; 吴征天; 许馨尹
Original assignee: Suzhou University of Science and Technology
Current assignee: Digital Suzhou Construction Co.,Ltd.
Priority date: 2020-04-14
Filing date: 2020-04-14
Publication date: 2022-08-02
Anticipated expiration: 2040-04-14
Also published as: CN111460508A

Abstract

本发明公开了一种基于差分隐私技术的轨迹数据保护方法，包括以下步骤：（1）、获取所有用户各自在任意时刻的轨迹点集合；（2）、计算得到所有用户中每个用户在任意时刻的轨迹点的密度参数；（3）、判断轨迹点是否为拐弯点，若为拐弯点则用加权密度参数取代原有密度参数；（4）、选择密度参数最大的多个轨迹点构成任意时刻的初始聚类中心点集，得到各个时刻初始聚类中心点集合；（5）、寻找与每个用户在任意时刻的轨迹点距离最近的中心点，通过聚类算法形成聚类簇，使聚类簇形成聚类收敛，得到每个用户任意t _i时刻的聚类中心点集，进而得到每个用户在所有时刻的聚类中心点集。本发明可降低聚类算法的迭代次数并提高聚类精度。

Description

一种基于差分隐私技术的轨迹数据保护方法

技术领域

本发明涉及轨迹数据处理方法领域，具体是一种基于差分隐私技术的轨迹数据保护方法。

背景技术

随着GPS技术和群智感知网络的发展，越来越多的车辆轨迹信息得以被精确的收集。车辆的轨迹信息具有很高的分析和挖掘价值。通过对这些数据的分析和挖掘，交通管理部门可以及时发布路况信息，帮助司机选择最优路径规划；城市规划部门通过分析轨迹信息来规划道路，优化城市交通网；开发商通过人流密度分析、行为分析来进行商业决策，在不同地段开发不同功能的商业体。然而，在对车辆轨迹数据的分析、挖掘过程中，容易造成车辆用户个人隐私的泄露，包括车辆用户的家庭地址、健康情况、兴趣爱好等等。因此对车辆轨迹信息的隐私保护的研究得到了越来越多的关注。

发明内容

本发明的目的是提供一种基于差分隐私技术的轨迹数据保护方法，以解决现有技术车辆轨迹分析方法存在的容易泄露隐私的问题。

为了达到上述目的，本发明所采用的技术方案为：

一种基于差分隐私技术的轨迹数据保护方法，其特征在于：包括以下步骤：

(1)、获取所有用户的轨迹数据集，并根据轨迹数据集得到每个用户在所有n个时刻的轨迹位置集，再从每个用户在所有n个时刻的轨迹位置集中得到每个用户在任意t_i时刻的轨迹点的位置信息，并由此得到所有用户在任意t_i时刻的轨迹点集合，其中1≤i≤n；

(2)、根据步骤(1)得到的所有用户在任意t_i时刻的轨迹点集合，计算得到所有用户中每个用户在任意t_i时刻的轨迹点的密度参数，并由此得到所有各个用户在任意t_i时刻的轨迹点的密度参数；

(3)、根据步骤(1)得到的每个用户在任意t_i时刻的轨迹点的位置信息，判断每个用户在任意t_i时刻的轨迹点是否为拐弯点，若轨迹点为拐弯点，则对通过步骤(2)计算得到的拐弯点对应的轨迹点的密度参数进行加权，得到拐弯点对应的轨迹点的加权密度参数，并以拐弯点对应的轨迹点的加权密度参数，代替拐弯点对应的轨迹点原先的密度参数作为新的密度参数；

(4)、从通过步骤(2)、步骤(3)计算得到的所有各个用户在任意t_i时刻的轨迹点的密度参数中，选择其中密度参数最大的k个轨迹点构成任意t_i时刻的初始聚类中心点集，任意t_i时刻的初始聚类中心点集中的k个轨迹点分别作为任意t_i时刻的初始聚类中心点，重复上述过程得到所有n个时刻的初始聚类中心点集构成的初始聚类中心点集合；

(5)、对于每个用户在任意t_i时刻的轨迹点，从步骤(4)中得到的初始聚类中心点集合中所有各个时刻的初始聚类中心点集内，分别寻找与每个用户在任意t_i时刻的轨迹点距离最近的中心点，并将针对每个用户所有找到的中心点通过聚类算法形成聚类簇，然后基于差分隐私预算原理和函数敏感度原理，并加入满足拉普拉斯机制的随机噪声，对聚类簇中的中心点进行更新，直至聚类簇形成聚类收敛，由此得到每个用户任意t_i时刻的聚类中心点集，重复上述过程得到每个用户在所有n个时刻的聚类中心点集，并由所有n个时刻的聚类中心点集构成每个用户完整的轨迹数据中心点集合。

所述的一种基于差分隐私技术的轨迹数据保护方法，其特征在于：步骤(1)中，轨迹数据集通过采集每个用户在地图上的轨迹数据得到，轨迹位置集为根据地图上的轨迹数据得到的每个时刻的轨迹点经纬度位置的集合，轨迹点的位置信息即为轨迹点的经纬度信息。

所述的一种基于差分隐私技术的轨迹数据保护方法，其特征在于：步骤(3)中，采用多点联合判断法判断轨迹点是否为拐弯点。

所述的一种基于差分隐私技术的轨迹数据保护方法，其特征在于：步骤(3)中，通过以拐弯点的加权密度参数代替其原有密度参数，以在步骤(4)中使拐弯点更大概率成为初始聚类中心点。

所述的一种基于差分隐私技术的轨迹数据保护方法，其特征在于：步骤(5)中，聚类算法采用k-means算法形成聚类簇。

所述的一种基于差分隐私技术的轨迹数据保护方法，其特征在于：步骤(5)中，将n个时刻用户对应的聚类中心点集点串联，即得到该用户新的轨迹位置。

结合差分隐私在隐私保护中的优越性，通过将基于聚类的轨迹隐私保护方法与差分隐私技术结合，本发明提出一种基于差分隐私技术的轨迹数据保护方法，具有以下优点：

1)考虑到传统k-means算法等聚类方法的初始聚类中心点是随机生成的，导致聚类迭代次数较多、聚类精度低等不足，本发明将高密度位置点和拐弯点作为初始聚类中心点，可降低聚类算法的迭代次数并提高聚类精度。

2)对聚类中心点添加满足拉普拉斯的噪声，发布加噪后的聚类中心点作为轨迹坐标，在满足隐私需求的前提下减小了发布误差，提高了轨迹数据的可用性。

附图说明

图1是本发明方法流程图。

图2是本发明具体实施方式中差分隐私作用下轨迹点的变化情况示意图。

图3是本发明具体实施方式中不同阈值下的拐弯点数目示意图。

图4是本发明具体实施方式中不同隐私预算下的相对误差比示意图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

如图1所示，本发明包括以下步骤：

(1)、获取所有用户的轨迹数据集，并根据轨迹数据集得到每个用户在所有n个时刻的轨迹位置集，再从每个用户在所有n个时刻的轨迹位置集中得到每个用户在任意t_i时刻的轨迹点的位置信息，并由此得到所有用户在任意t_i时刻的轨迹点集合，其中1≤i≤n，具体说明如下：

轨迹数据集通过采集每个用户在地图上的轨迹数据得到，对于一个包含m个用户轨迹的轨迹数据集T＝{tr₁,tr₂,...,tr_m}，单个用户的轨迹均由所有n个时刻上的位置经纬度坐标构成，因此每个用户的轨迹位置集是每个用户轨迹数据的所有n个时刻的轨迹点经纬度位置的集合，每个用户的轨迹位置集表示为tr_A＝{(p₁,t₁),...,(p_i,t_i),...,(p_n,t_n)}(1≤i≤n)，其中A＝1,2…m。轨迹点的位置信息即为轨迹点的经纬度信息，每个用户在任意t_i时刻的轨迹点p_i表示为p_i＝(x_i,y_i)(1≤i≤n)，其中x_i和y_i分别表示轨迹点的经纬度信息，而t_i表示轨迹点p_i的时间刻度。

(2)、根据步骤(1)得到的所有用户在任意t_i时刻的轨迹点集合，计算得到所有用户中每个用户在任意t_i时刻的轨迹点的密度参数，并由此得到所有各个用户在任意t_i时刻的轨迹点的密度参数，具体说明如下：

对于任意t_i时刻所有用户的轨迹点集合，取其中密度参数最大的k个轨迹点作为初始聚类中心点，以此达到缩短聚类迭代次数，提高聚类精度的目的。每个用户任意t_i时刻轨迹点p_i的密度参数Dens_r(p_i)按照公式(1)计算：

公式(1)中，r为有效密度半径，N为任意t_i时刻该有效密度半径内所包含的所有m个用户的轨迹点的总数，轨迹点p_j为所有用户在任意t_i时刻的轨迹点中以轨迹点p_i为圆心、半径为r的圆内的第j个轨迹数据点，Dist(p_i,p_j)为轨迹点p_i和p_j的欧氏距离。

(3)、根据步骤(1)得到的每个用户在任意t_i时刻的轨迹点的位置信息，判断每个用户在任意t_i时刻的轨迹点是否为拐弯点，若轨迹点为拐弯点，则对通过步骤(2)计算得到的拐弯点对应的轨迹点的密度参数进行加权，得到拐弯点对应的轨迹点的加权密度参数，并以拐弯点对应的轨迹点的加权密度参数，代替拐弯点对应的轨迹点原先的密度参数作为新的密度参数。

本发明中，采用文献(徐尽,田胜利.基于拐点判断法的GPS定位数据精简[J].计算机工程,2010,36(07):268-269+272)提出的多点联合判断法判断轨迹点是否为拐弯点，判断过程如下：

对于任意轨迹位置点p_i＝(x_i,y_i)，在实际位置采集过程中，由于根据采集时间间隔的不同，拐弯点在拐弯的过程中与前一个时刻的偏移角度为一不确定值。采集时间间隔较小，则测得的与前一个时刻位置的偏移角度较小；若采集时间间隔较大，则测得的偏移角度也偏大。同时，路口大的拐弯较平缓，路口小的拐弯较急。为了增大拐弯点检测的准确度，本发明采用多点联合判断法进行判断，轨迹点p_i点处的拐弯角度如公式(2)：

为了提高拐弯点判定的准确性，本发明根据轨迹点p_i前后共五个点的拐弯角度之和，来判定是否处于拐弯状态，也即公式(3)进行判断：

α(x_i,y_i)＝(α_i-2-α_i-1)+(α_i-1-α_i)+(α_i-α_i+1)＝α_i-2-α_i+1 (3)，

当计算得到的α(x_i,y_i)大于某一预设阈值θ时，则确定该轨迹点为拐弯点。

本发明中，通常情况下，可按照公式(1)求出每个轨迹点的密度参数，取最大的k个作为k-means等聚类算法的初始聚类中心。为更加准确的反应车辆的行驶轨迹，可考虑能将车辆拐弯点作为聚类中心点输出，并对车辆行驶轨迹上的拐弯点加权，提高其密度权重，使其有更大概率作为初始聚类中心点输出。本发明引入了拐弯状态的轨迹数据点的加权密度概念，且将轨迹数据点中的拐弯点p_i的加权密度WDens_r(p_i)定义为如公式(4)所示：

对于有效密度半径r，一般用轨迹步长来代替。轨迹步长按照公式(5)计算：

公式(5)中m为轨迹数据集的用户数目，L_i是第i条轨迹的长度，q_i为每条轨迹上的轨迹点。

(4)、从通过步骤(2)、步骤(3)计算得到的所有用户在t_i时刻的轨迹点的密度参数中，选择其中密度参数最大的k个轨迹点构成t_i时刻的初始聚类中心点集，重复上述过程得到所有n个时刻的初始聚类中心点集构成的初始聚类中心点集合。

本发明针对k-means等聚类算法对初始聚类中心点采用随机选取会导致聚类迭代次数较多的问题，提出一种适用于轨迹数据集聚类的初始中心点选择算法。首先判断轨迹数据集中的拐弯点，然后通过公式(1)求出各个轨迹点的密度参数，若该轨迹点为拐弯点则通过公式(4)求得加权后的密度参数。这样拐弯点可以更大概率的成为初始聚类中心点，进而减小聚类误差。然后将t_i时刻密度参数最大的k个轨迹点作为初始聚类中心点集O_i。重复上述过程，直到找出n个时刻的初始聚类中心点集合O＝{O₁,O₂,...,O_n}。

(5)、对于所有用户在任意t_i时刻的轨迹点，从步骤(4)中得到的初始聚类中心点集合中所有各个时刻的初始聚类中心点集内，分别寻找与每个用户在任意t_i时刻的轨迹点距离最近的中心点，并将针对每个用户所有找到的中心点通过聚类算法形成聚类簇，然后基于差分隐私预算原理和函数敏感度原理，并加入满足拉普拉斯机制的随机噪声，对聚类簇中的中心点进行更新，直至聚类簇形成聚类收敛，由此得到任意t_i时刻的聚类中心点集，重复上述过程得到所有用户在所有n个时刻的聚类中心点集，并由用户在每个时刻对应的聚类中心点构成每个用户完整的轨迹数据中心点集合，具体过程如下：

在步骤(4)得到的初始聚类中心点集合O中的所有各个时刻的初始聚类中心点集内，对于每个用户任意t_i时刻的轨迹点p_i，寻找与其距离最近的中心点c_h，并通过k-means算法将中心点c_h形成聚类簇S_h(1≤h≤k)，计算簇内点之和

和数目num_h＝|S_h|，由差分隐私预算ε和函数敏感度Δf，按照：c′_h＝sum′_h/num′_h得到中心点c′_h，其中有：

sum′_h＝sum_h+υ_h,num′_h＝num_h+υ_h (6)，

为得到加噪后的sum′_h和num′_h，随机噪声υ_h满足υ_h～Lap(b)，且有b＝Δf/ε。重复上述过程直至聚类收敛，收敛后得到第i时刻k个加噪后的聚类中心点集C_i＝{c₁,c₂,...,c_k}，则n个时刻完整的轨迹数据中心点集合为C＝{C₁,C₂,...,C_n}。

从集合C中找出用户任意时刻真实轨迹所对应的中心点，用对应的加噪后的中心点来代替原始轨迹信息输出。

用户的轨迹即每个时刻所处聚类的中心点串联起来，通过将每个用户完整的轨迹数据中心点集合中的所有n个时刻的聚类中心点集点串联，即得到该用户新的轨迹位置。

本发明所涉及的几个定义有：ε-位置差分隐私(即本发明差分隐私预算)、全局敏感度Δf和拉普拉斯机制，同时本发明给出差分隐私有两个重要的性质：序列组合性和并行组合性。具体说明如下：

定义1ε-位置差分隐私。对于2个位置数据集D和D′，假定两者最多只有一条位置信息不同，即两者的线性相异距离|D-D′|≤1，M为随机查询函数，并具有差分隐私保护，Rang(M)代表M的取值范围，若D和D′在查询函数M下得到的任意位置

满足：

Pr[M(D)∈L]≤Pr[M(D′)∈L]e^ε (7)，

则称查询函数M满足ε-位置差分隐私，其中，Pr[·]表示位置信息被泄露的概率，由算法M的随机性控制；ε为隐私保护预算，ε取值越小则隐私保护度越高。

定义2全局敏感度。对于任意函数f:D→R^d，f的全局敏感度定义为：

其中D和D′表示最多相差一条位置信息的位置数据集，||f(D)-f(D′)||₁为f(D)和f(D′)之间的一阶范数值。

需要说明的是，全局敏感度是差分隐私保护算法的一个重要度量指标，它的大小只和函数f本身有关，与数据集大小无关。

定义3拉普拉斯机制。给定位置数据集D，对任意函数f:D→R^d，其敏感度为Δf，若函数f输出结果满足：

M(D)＝f(D)+Lap(b) (9)，

则称函数f满足ε-差分隐私，其中Lap(b)为随机噪声，尺度参数b为全局敏感度与隐私预算的比值Δf/ε，噪声量的大小与全局敏感度Δf成正比，与隐私预算ε成反比。

差分隐私保护的实现机制主要有拉普拉斯机制和指数机制，其中拉普拉斯机制多用于数值型数据，指数机制一般用于非数值型数据。本发明采用拉普拉斯加噪机制。差分隐私有两个重要的性质，分别为序列组合性和并行组合性：

性质1序列组合性。设有n个随机算法k₁,k₂,...,k_n，其隐私保护预算分别为ε₁,ε₂,...,ε_n，则对于某一数据集D，有这n个随机算法序列组合成的算法k(k₁(D),k₂(D),...,k_n(D))满足

差分隐私。

性质2并行组合性。设有n个随机算法k₁,k₂,...,k_n，其隐私保护预算分别为ε₁,ε₂,...,ε_n，则对n个交集为空集的数据集D₁,D₂,...,D_n，由这n个随机算法并行组合成的算法k(k₁(D),k₂(D),...,k_n(D))满足

差分隐私保护。

为了更直观的表述本发明所提轨迹隐私保护算法，下面通过表1、表2和图2来举例说明。

表1原始轨迹位置

t1

t2

t3

t4

t5

t6

A

A1

A2

A3

A4

A5

A6

B

B1

B2

B3

B4

B5

B6

C

C1

C2

C3

C4

C5

C6

D

D1

D2

D3

D4

D5

D6

E

E1

E2

E3

E4

E5

E6

表2差分隐私保护后的轨迹位置

表1和表2分别给出了n＝5个用户、m＝6个时刻的原始轨迹数据集和隐私保护后的轨迹集，用户的具体位置如tu所示。以A用户为例，其原始轨迹L(A)：A1→A2→A3→A4→A5→A6，通过本发明所提的轨迹隐私保护算法，A用户在每个时刻与周围用户聚类，产生一个聚类中心位置，并对中心进行加噪使其满足差分隐私，用加噪后的聚类中心点来代替该聚类簇内用户的真实位置。产生如表2所示的隐私轨迹L^*(A)：L^*11→L^*21→L^*31→L^*42→L^*51→L^*63。对于某一时刻未采集的用户轨迹点，这里采用局部轨迹相似度来判断该点的位置，例如图2中t₃时刻C用户的轨迹位置未采集到，对其前后两个时刻的位置点和其他轨迹进行判断，发现其和A用户的局部轨迹相似度最高，则取A用户在t₃时刻发布的轨迹点L^*33作为C用户在t₃时刻发布的位置点。

本发明隐私性分析

下面将对本发明所提方法的隐私性进行分析，并证明对sum_jh和num_jh的加噪过程满足差分隐私。

在通过轨迹隐私保护算法对t_j时刻每个簇内的sum_j和num_j分别加噪时，记第h个簇的sum_jh分配的隐私预算为ε_s，而num_jh分配的隐私预算为ε_n。设A为加噪算法，sum_jh和sum′_jh为相差最多一条记录的数据集，A(sum_jh)和A(sum′_jh)为加噪后的结果，

为加噪后的所有结果。则有，

同理，记num_jh和num′_jh为相差最多一条记录的数据集，A(num_jh)和A(num′_jh)为加噪后的结果，

为加噪后的所有结果。则有，

由上式可得，对sum_jh和num_jh的加噪过程均满足差分隐私，且所需隐私预算分别为ε_s和ε_n。假设对于整个轨迹数据集的隐私预算为ε，且整个轨迹有N个时刻，则在每个时刻分配到的隐私预算为ε_j＝ε/N；而每个时刻又包括K个簇，每个簇分配到的隐私预算为ε_j/K，由前面的证明得ε/NK＝ε_s+ε_n。根据差分隐私的并行组合性，每个簇的加噪过程都满足ε/NK-差分隐私保护。再根据差分隐私的序列组合性，可以证明整个轨迹数据集的加噪过程满足

差分隐私保护，即本发明所提轨迹隐私保护算法满足ε-差分隐私保护。

由于隐私保护算法的迭代次数为一未知值，所以选择在迭代过程中需逐步调高参数，第一次迭代是ε/2，第二次是ε/4，即每次消耗隐私预算的一半，直至聚类结果收敛。

本发明实验验证

本发明将进行所提方法的有效性的验证，并和现有DPk-means、DP-DBScan算法进行性能的比较。仿真实验在MATLAB环境中在下进行，选取某日12:00到14:00，m＝537辆北京市出租车的运行轨迹，每五分钟采集一次车辆位置信息，共得到6234个轨迹点。

首先进行不同阈值θ下的拐弯点数目的比较，实验结果如图3所示。从图3中可以看到，选择不同的阈值精度会得到不同的拐弯点筛选结果，随着阈值θ度数的减小，筛选出来的拐弯点数目变得越来越多。由于阈值θ的降低，一方面提高了拐弯点筛选率，另一方面也占用更多的系统空间，影响运行效率。因此接下来的实验统一取θ＝6°，在保证拐弯点筛选完整的基础上尽可能降低运行时间。

通过对经纬度的归一化然后，采用文献(Lee,SuiangShyan，Lin.An acceleratedK-means clustering algorithm using selection and erasure rules[J].浙江大学学报:c卷英文版,2012,13(10):761-768.)给出的评价指标误差平方和(Sum of the SquaredErrors，SSE)来确定聚类簇数k的取值，通过计算不同k值下的SSE观察得到最佳聚类数。这里ε分别取0.5和0.8，并对算法运行100次取平均值作为输出的结果进行比较分析。轨迹数据库的可用性一般使用文献(霍峥,孟小峰.一种满足差分隐私的轨迹数据发布方法[J].计算机学报,2018.)提出的平均相对误差Error来衡量，即

其中

为轨迹数据库中的查询函数，l为轨迹数据库中的轨迹点，D为轨迹数据库，T为轨迹数据库中的轨迹数据，l(T)为轨迹数据T上的轨迹点。这里，参数s是为了防止满足查询条件的记录数量过多而设置的阈值。

表3给出了三种轨迹隐私保护算法性能比较。从表3可以看出，当隐私预算ε取0.8时，本发明所提算法的准确率比DP-DBScan算法提高了约6个百分点，比DPk-means算法提高了约9个百分点。当ε取0.5时，本发明所提算法的准确率比DP-DBScan算法和DPk-means算法分别提高了约4个百分点和14个百分点，表明本方法对于初始聚类中心的选取合理有效，在保证隐私强度的基础上更加精确。

表3三种轨迹隐私保护算法性能比较

不同隐私预算下的轨迹误差率如图4所示，与DPk-means算法、DP-DBScan算法进行对比分析发现。当隐私保护预算ε取值0.5-2.5时，相对误差值比DPk-means算法减小9％-3％，比DP-DBScan算法减小6％-1％。随着隐私预算的增大误差越来越小，误差越小则数据可用性越高，这说明本文手提算法在相同隐私预算ε下具有更高的数据可用性。

本发明所述的实施例仅仅是对本发明的优选实施方式进行的描述，并非对本发明构思和范围进行限定，在不脱离本发明设计思想的前提下，本领域中工程技术人员对本发明的技术方案作出的各种变型和改进，均应落入本发明的保护范围，本发明请求保护的技术内容，已经全部记载在权利要求书中。

Claims

1.一种基于差分隐私技术的轨迹数据保护方法，其特征在于：包括以下步骤：

对于任意t_i时刻所有用户的轨迹点集合，取其中密度参数最大的k个轨迹点作为初始聚类中心点，以此达到缩短聚类迭代次数，提高聚类精度的目的，每个用户任意t_i时刻轨迹点p_i的密度参数Dens_r(p_i)按照公式(1)计算：

公式(1)中，r为有效密度半径，N为任意t_i时刻该有效密度半径内所包含的所有m个用户的轨迹点的总数，轨迹点p_j为所有用户在任意t_i时刻的轨迹点中以轨迹点p_i为圆心、半径为r的圆内的第j个轨迹数据点，Dist(p_i,p_j)为轨迹点p_i和p_j的欧氏距离；

引入了拐弯状态的轨迹数据点的加权密度概念，且将轨迹数据点中的拐弯点p_i的加权密度WDens_r(p_i)定义为如公式(4)所示：

对于有效密度半径r，用轨迹步长来代替，轨迹步长按照公式(5)计算：

公式(5)中m为轨迹数据集的用户数目，L_i是第i条轨迹的长度，q_i为每条轨迹上的轨迹点；

(4)、从通过步骤(2)、步骤(3)计算得到的所有各个用户在任意t_i时刻的轨迹点的密度参数中，选择其中密度参数最大的k个轨迹点构成任意t_i时刻的初始聚类中心点集，任意t_i时刻的初始聚类中心点集中的k个轨迹点分别作为任意t_i时刻的初始聚类中心点，拐弯点以更大概率成为初始聚类中心点，重复上述过程得到所有n个时刻的初始聚类中心点集构成的初始聚类中心点集合；

2.根据权利要求1所述的一种基于差分隐私技术的轨迹数据保护方法，其特征在于：步骤(1)中，轨迹数据集通过采集每个用户在地图上的轨迹数据得到，轨迹位置集为根据地图上的轨迹数据得到的每个时刻的轨迹点经纬度位置的集合，轨迹点的位置信息即为轨迹点的经纬度信息。

3.根据权利要求1所述的一种基于差分隐私技术的轨迹数据保护方法，其特征在于：步骤(3)中，采用多点联合判断法判断轨迹点是否为拐弯点。

4.根据权利要求1所述的一种基于差分隐私技术的轨迹数据保护方法，其特征在于：步骤(5)中，聚类算法采用k-means算法形成聚类簇。

5.根据权利要求1所述的一种基于差分隐私技术的轨迹数据保护方法，其特征在于：步骤(5)中，将n个时刻用户对应的聚类中心点集点串联，即得到该用户新的轨迹位置。