CN109165527A

CN109165527A - 支持个性化隐私的轨迹敏感数据保护方法

Info

Publication number: CN109165527A
Application number: CN201810984952.XA
Authority: CN
Inventors: 杨晓春; 王斌; 刘旺媛
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2018-08-28
Filing date: 2018-08-28
Publication date: 2019-01-08
Anticipated expiration: 2038-08-28
Also published as: CN109165527B

Abstract

本发明提供一种支持个性化隐私的轨迹敏感数据保护方法，涉及数据分析处理技术领域。该方法包括：提取原始数据集D中用户设定需要保护的敏感位置列表SP_list；采用Google Map API对用户设定的敏感位置列表SP_list中的任意敏感位置SP_b进行反向地址解析，得到敏感序列SS_b；根据类簇集合Clus构建假轨迹片段；以假轨迹片段T*替换原始数据集D中轨迹片段T，输出经过隐私保护的数据集D*。本发明提供的一种支持个性化隐私的轨迹敏感数据保护方法，充分考虑到移动对象的移动速度、采样点数量和路段相似性，还对敏感位置进行了语义聚类划分，并且对于敏感位置的替换是随机的，攻击者确定真实敏感位置的概率也相对低了很多，保证了敏感位置的安全性。

Description

支持个性化隐私的轨迹敏感数据保护方法

技术领域

本发明涉及数据分析处理技术领域，具体涉及一种支持个性化隐私的轨迹敏感数据保护方法。

背景技术

近年来，随着定位技术的迅速发展，带有GPS接收器的移动设备越来越普及，基于位置的服务(LBS)使用越来越广泛，因此服务提供者每日将会获得大量的轨迹数据。对收集到的轨迹数据进行数据挖掘和分析在多个领域中都有很广泛的应用，例如城市规划、商业决策、旅游路径推荐等。然而轨迹数据包含个人敏感信息，攻击者通过对发布的轨迹数据进行分析，很可能会造成个人的兴趣爱好、行为模式等隐私泄露。目前对于数据发布上的轨迹隐私保护问题，大多基于传统的k-匿名方法对轨迹进行泛化，和构建假轨迹等。这些方法大多认为轨迹上的点的隐私需求是相同的，忽略了不同的用户的隐私需求往往是不同的，并且能够泄露敏感信息的往往是轨迹中的一些敏感位置，这些点通常含有语义信息，例如家、医院、学校、商场等。现有方法考虑了轨迹中敏感位置的保护，通过将敏感位置泛化成区域保证安全性，但发布出的轨迹不完全是原子轨迹，因此现有的隐私保护方法的可用性不高。

发明内容

针对现有技术存在的问题，本发明提供一种支持个性化隐私的轨迹敏感数据保护方法，考虑不同用户的不同隐私需求，解决了数据发布中用户轨迹中的敏感位置泄露的情况，根据敏感位置不同时段访问概率、用户访问数量和用户平均停留时长，考虑敏感位置的空间距离和语义相似性，确定两点间的混合距离，再基于l-多样性的原则对敏感位置进行聚类划分，将敏感位置进行替换，并根据移动对象的移动速度，采样点数量和采样间隔构建一条假轨迹片段，提高发布数据的可用性。

为了实现上述目的，一种支持个性化隐私的轨迹敏感数据保护方法，包括以下步骤：

步骤1：提取原始数据集D中用户设定需要保护的敏感位置列表SP_list；

所述原始数据集D＝{d₁，...，d_o，...，d_z}，其中，d_o{ID，T，SP_list}，ID为记录的标识，T为轨迹，SP_list为用户设定需要保护的敏感位置列表；所述用户设定需要保护的敏感位置列表SP_list＝{SP₁，...，SP_k}，SP_b＝(ID’，l_core，add，sem)，其中，ID’为敏感位置的标识符，l_core为敏感位置的核心地理位置，add为敏感位置的地址，sem为敏感位置的语义信息；所述敏感位置的语义信息其中，Δt_avg为访问敏感位置用户的平均停留时长，N为访问敏感位置的用户数量，为访问敏感位置的用户列表，为一天内访问敏感位置的概率；所述一天内访问敏感位置的概率为q维向量，将一天24小时分为q段，其中，p_a为第a时段移动对象进入敏感位置的概率，且1≤a≤q；

步骤2：采用Google Map API对用户设定的敏感位置列表SP_list中的任意敏感位置SP_b进行反向地址解析，得到敏感序列SS_b；

步骤3：根据语义的敏感位置进行聚类划分形成类簇集合Clus，具体步骤如下：

步骤3.1：初始化聚类划分所需的参数，包括隐私保护度l、用户设定需要保护的敏感位置列表SP_list中的中心点为SP_cen、类簇集合Clus为空集、当前类簇数flag为0、类簇中心点的个数N_cen为0；

步骤3.2：判断类簇中心点的个数N_cen是否小于类簇集合要分的类数，若小于，则令中心点SP_cen为距离当前中心点最远的点，继续步骤3.3，若不小于，则停止；

步骤3.3：令当前类簇集合Clus_flag为当前类簇中心点SP_cen以及与中心点SP_cen混合距离最近的l-1个点；

步骤3.4：分别以当前类簇集合Clus_flag中的点作为中心点，计算该点与其他l-1个点的混合距离之和，并以与其他l-1个点的混合距离之和最小的点替换当前类簇中心点SP_cen为新的当前类簇中心点SP_cen；

步骤3.5：更新当前类簇集合Clus_flag为新的当前类簇中心点SP_cen以及与新的中心点SP_cen混合距离最近的l-1个点，返回步骤3.4，直至当前类簇中心点SP_cen不再发生替换；

步骤3.6：将当前类簇集合Clus_flag合并到类簇集合Clus中；

步骤3.7：令当前类簇数flag加1，类簇中心点的个数N_cen加1，返回步骤3.2；

步骤4：根据类簇集合Clus构建假轨迹片段，具体步骤如下：

步骤4.1：构建包含类簇集合Clus中所有元素的最小边界矩形MBR，并确定距离矩形MBR最近的两个路口点为假轨迹片段的起点V_s和假轨迹片段的终点V_f，初始化构建假轨迹片段所需的参数，包括采样间隔t_interval和采样点数量Num，设置当前采样点个数为0；

步骤4.2：在最小边界矩形MBR中，以设定替换点位置SP_fake替换用户设定需要保护的敏感位置；

步骤4.3：构建从起点V_s到替换点位置SP_fake之间的假轨迹片段，具体步骤如下：

步骤4.3.1：根据采样间隔t_interval和移动对象的速度V_random确定采样点的位置；

步骤4.3.2：判断采样点是否与替换点位置SP_fake重合，若是，则输出当前采样点个数，继续步骤4.4，若否，则当前采样点个数加1，返回步骤4.3.1，确定下一采样点的位置；

步骤4.4：构建替换点位置SP_fake到终点V_f之间的假轨迹片段，具体步骤如下：

步骤4.4.1：根据采样间隔t_interval和移动对象的速度V_random确定采样点的位置；

步骤4.4.2：判断采样点是否与终点V_f重合，若是，则则输出当前采样点个数，继续步骤4.5，若否，则当前采样点个数加1，返回步骤4.4.1，确定下一采样点的位置；

步骤4.5：判断当前采样点个数是否小于采样点数量Num，若是，则在替换点位置SP_fake周围距离阈值θ_d范围内随机选取一点，返回步骤4.5，若否，则连接各个采样点，完成假轨迹片段的构建；

步骤5：以假轨迹片段T*替换原始数据集D中轨迹片段T，输出经过隐私保护的数据集D*。

进一步地，所述第a段时间移动对象(MOB)进入敏感位置的概率p_a的计算公式如下：

其中，Num(a)为第a段时间访问某一地点的人数，N为一天内访问该地点的人数。

进一步地，所述计算两点间混合距离的公式如下：

其中，Dist_mix(SP_i，SP_j)为点SP_i和点SP_j间的混合距离，α和β为设定路网距离与语义相似度所占比重的参数且α+β＝1，Dist(SP_i，SP_j)为点SP_i和点SP_j间的路网距离，maxDist为敏感位置之间的最大距离，sim(SP_i，SP_j)为点SP_i和点SP_j间的语义相似度，maxSim为敏感位置之间的最大语义相似度；所述点SP_i和点SP_j间的语义相似度sim(SP_i，SP_j)的计算公式如下：

其中，Δt_avgi和Δt_avgj分别为访问地点i和地点j用户的平均停留时长，N_i和N_j分别为访问地点i和地点j的用户数量，和分别为访问地点i和地点j的用户列表，和分别为一天内访问地点i和地点j的概率。

进一步地，所述步骤3中类簇集合要分的类数根据用户访问地点列表SP中地点的个数以及隐私保护度l确定。

进一步地，所述步骤4中移动对象的速度V_random在移动对象的最小速度V_min和最大速度V_max之间随机确定。

本发明的有益效果：

本发明提出一种支持个性化隐私的轨迹敏感数据保护方法，充分考虑到移动对象的移动速度、采样点数量和路段相似性，因此构建的假轨迹片段不易识别，即使攻击者发现了假轨迹片段，并且掌握隐私保护的方法，本发明还对敏感位置进行了语义聚类划分，每个类簇中至少含有l个语义存在差异的敏感位置，并且对于敏感位置的替换是随机的，攻击者确定真实敏感位置的概率也相对低了很多，保证了敏感位置的安全性。

附图说明

图1为本发明实施例中支持个性化隐私的轨迹敏感数据保护方法的流程图；

图2为本发明实施例中敏感位置访问概率曲线图；

图3为本发明实施例中假轨迹片段的起止点确定示意图；

图4为本发明实施例中最终构建的假轨迹片段示意图。

具体实施方式

为了使本发明的目的、技术方案及优势更加清晰，下面结合附图和具体实施例对本发明做进一步详细说明。此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

一种支持个性化隐私的轨迹敏感数据保护方法，流程如图1所示，具体方法如下所述：

步骤1：提取原始数据集D中用户设定需要保护的敏感位置列表SP_list。

本实施例中，采用微软亚洲研究院GeoLife收集的182个志愿者从2007年4月至2012年8月共17621条轨迹，轨迹总长度1292951公里，对原始数据集中的轨迹进行筛选，只选择BJ五环以内的轨迹数据。

所述原始数据集D＝{d₁，...，d_o，...，d_z}，其中，d_o＝{ID，T，SP_list}，ID为记录的标识，T为轨迹，SP_list为用户设定需要保护的敏感位置列表；所述用户设定需要保护的敏感位置列表SP_list＝{SP₁，...，SP_k}，SP_b＝(ID’，l_core，add，sem)，其中，ID’为敏感位置的标识符，l_core为敏感位置的核心地理位置，add为敏感位置的地址，sem为敏感位置的语义信息；所述敏感位置的语义信息其中，Δt_avg为访问敏感位置用户的平均停留时长，N为访问敏感位置的用户数量，为访问敏感位置的用户列表，为一天内访问敏感位置的概率；所述一天内访问敏感位置的概率为q维向量，将一天24小时分为q段，其中，p_a为第a时段移动对象进入敏感位置的概率，且1≤a≤q。

所述第a段时间移动对象(MOB)进入敏感位置的概率p_a的计算公式如下：

本实施例中，一天内敏感位置餐厅、公司、超市的访问概率曲线图如图2所示，现有技术常采用访问敏感位置的平均时刻作为语义相似度的衡量标准，而从图2中可以看出，公司和餐厅的语义相差很大，但平均访问时刻均为中午12时左右，所以平均时刻衡量敏感位置语义不准确，因此，通过采样分段衡量的方式，计算不同时段访问敏感位置的概率，衡量语义更准确。

步骤2：采用Google Map API对用户设定的敏感位置列表SP_list中的任意敏感位置SP_b进行反向地址解析，得到敏感序列SS_b。

本实施例中，采用的具体方法是，从轨迹T＝{ID”，(x₁，y₁，t₁)，...，(x_n，y_n，t_n)}中找到一个在近似同一位置停留超过设定的时间阈值θ_t和距离阈值θ_d的连续轨迹片段{(x_m，y_m，t_m)，(x_m+1，y_m+1，t_m+1)，...，(x_n，y_n，t_n)}标记为敏感序列SS_b，其中，ID”为轨迹的标识符，(x_c，y_c，t_c)为采样点l_c在t_c时刻移动对象(MOB)的地理坐标为(x_c，y_c)(1≤c≤n)，且c满足Dist((x_c，y_c)，(x_c+1，y_c+1))≤θ_d，|t_n-t_m|≥θ_t，Dist()为两点间的空间欧式距离。

本实施例中，设置时间阈值θ_t为20分钟，距离阈值θ_d为200米。

本实施例中，在收集的17621条轨迹中共提取到34780个停留点，再利用GoogleMap API对停留点进行反向地址解析，排除由于交通堵塞造成的停留，通过解析出的地址判断停留点对应的敏感位置。

步骤3.1：初始化聚类划分所需的参数，包括隐私保护度l、用户设定需要保护的敏感位置列表SP_list中的中心点为SP_cen、类簇集合Clus为空集、当前类簇数flag为0、类簇中心点的个数N_cen为0。

本实施例中，设置隐私保护度l＝4。

步骤3.2：判断类簇中心点的个数N_cen是否小于类簇集合要分的类数，若类簇中心点的个数N_cen小于类簇集合要分的类数，则令中心点SP_cen为距离当前中心点最远的点，继续步骤3.3，若类簇中心点的个数N_cen不小于类簇集合要分的类数，则停止。

本实施例中，类簇集合要分的类数根据用户访问地点列表SP中地点的个数4000以及隐私保护度l＝4确定为4。

步骤3.3：令当前类簇集合Clus_flag为当前类簇中心点SP_cen以及与中心点SP_cen混合距离最近的l-1个点。

所述计算两点间混合距离的公式如下：

本实施例中，参数α与β均设置为0.5。

步骤3.4：分别以当前类簇集合Clus_flag中的点作为中心点，计算该点与其他l-1个点的混合距离之和，并以与其他l-1个点的混合距离之和最小的点替换当前类簇中心点SP_cen为新的当前类簇中心点SP_cen。

步骤3.5：更新当前类簇集合Clus_flag为新的当前类簇中心点SP_cen以及与新的中心点SP_cen混合距离最近的l-1个点，返回步骤2.4，直至当前类簇中心点SP_cen不再发生替换。

步骤3.6：将当前类簇集合Clus_flag合并到类簇集合Clus中。

步骤3.7：令当前类簇数flag加1，类簇中心点的个数N_cen加1，返回步骤3.2。

步骤4：根据类簇集合Clus构建假轨迹片段，具体步骤如下：

步骤4.1：构建包含类簇集合Clus中所有元素的最小边界矩形MBR，并确定距离矩形MBR最近的两个路口点为假轨迹片段的起点V_s和假轨迹片段的终点V_f，初始化构建假轨迹片段所需的参数，包括采样间隔t_interval和采样点数量Num，设置当前采样点个数为0。

本实施例中，设置采样间隔t_interval＝5s，采样点数量Num＝7。

本实施例中，当隐私保护度l＝4时，原始轨迹中，用户需要保护的敏感位置为医院A，经过步骤2对敏感位置进行聚类划分后，医院A与公园、公司和餐厅B构成一个类簇，通过构建该类簇的最小边界矩形MBR，距离该矩形的最近的两个采样点分别为假轨迹片段的起始采样点V_s和终止采样点V_f，如图3所示。

步骤4.2：在最小边界矩形MBR中，以设定替换点位置SP_fake替换用户设定需要保护的敏感位置。

本实施例中，以替换点公司的位置SP_fake替换用户设定需要保护的敏感位置医院。

步骤4.3.1：根据采样间隔t_interval和移动对象的速度V_random确定采样点的位置。

所述移动对象的速度V_random在移动对象的最小速度V_min和最大速度V_max之间随机确定，且每次取值不一定相同。

步骤4.3.2：判断采样点是否与替换点位置SP_fake重合，若是，则输出当前采样点个数，继续步骤4.4，若否，则当前采样点个数加1，返回步骤4.3.1，确定下一采样点的位置。

步骤4.4.1：根据采样间隔t_interval和移动对象的速度V_random确定采样点的位置。

步骤4.4.2：判断采样点是否与终点V_f重合，若是，则则输出当前采样点个数，继续步骤4.5，若否，则当前采样点个数加1，返回步骤4.4.1，确定下一采样点的位置。

步骤4.5：判断当前采样点个数是否小于采样点数量Num，若是，则在替换点位置SP_fake周围距离阈值θ_d范围内随机选取一点，返回步骤4.5，若否，则连接各个采样点，完成假轨迹片段的构建。

本实施例中，随机选择类簇中的公司替换医院A，从起始点V_s沿公司方向构建假采样点，随机选取移动对象的移动速度V_random∈[V_min，V_max]，根据采样时间间隔计算假轨迹上采样点的位置，同理从公司沿终止点V_f方向构建假采样点。为了保证采样点的数量一致，原始轨迹采样点数量为7个，因此，在假位置公司周围θ_d范围内随机选取三个采样点位置，更新采样时间产生一条新的假轨迹片段，构建好的假轨迹片段如图4所示。

步骤4：以假轨迹片段T*替换原始数据集D中轨迹片段T，输出经过隐私保护的数据集D*。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解；其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；因而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims

1.一种支持个性化隐私的轨迹敏感数据保护方法，其特征在于，包括以下步骤：

所述原始数据集D＝{d₁，...，d_o，...，d_z}，其中，d_o＝{ID，T，SP_list}，ID为记录的标识，T为轨迹，SP_list为用户设定需要保护的敏感位置列表；所述用户设定需要保护的敏感位置列表SP_list＝{SP₁，...，SP_k}，SP_b＝(ID’，l_core，add，sem)，其中，ID’为敏感位置的标识符，l_core为敏感位置的核心地理位置，add为敏感位置的地址，sem为敏感位置的语义信息；所述敏感位置的语义信息其中，Δt_avg为访问敏感位置用户的平均停留时长，N为访问敏感位置的用户数量，为访问敏感位置的用户列表，为一天内访问敏感位置的概率；所述一天内访问敏感位置的概率为q维向量，将一天24小时分为q段，其中，p_a为第a时段移动对象进入敏感位置的概率，且1≤a≤q；

步骤3.5：更新当前类簇集合Clus_flag为新的当前类簇中心点SP_cen以及与新的中心点SP_cen混合距离最近的l-1个点，返回步骤2.4，直至当前类簇中心点SP_cen不再发生替换；

步骤3.6：将当前类簇集合Clus_flag合并到类簇集合Clus中；

步骤4：根据类簇集合Clus构建假轨迹片段，具体步骤如下：

步骤5：以假轨迹片段T^*替换原始数据集D中轨迹片段T，输出经过隐私保护的数据集D^*。

2.根据权利要求1所述的支持个性化隐私的轨迹敏感数据保护方法，其特征在于，所述第a段时间移动对象(MOB)进入敏感位置的概率p_a的计算公式如下：

3.根据权利要求1所述的支持个性化隐私的轨迹敏感数据保护方法，其特征在于，所述计算两点间混合距离的公式如下：

4.根据权利要求1所述的支持个性化隐私的轨迹敏感数据保护方法，其特征在于，所述步骤3中类簇集合要分的类数根据用户访问地点列表SP中地点的个数以及隐私保护度l确定。

5.根据权利要求1所述的支持个性化隐私的轨迹敏感数据保护方法，其特征在于，所述步骤4中移动对象的速度V_random在移动对象的最小速度V_min和最大速度V_max之间随机确定。