CN108111968B

CN108111968B - 一种基于泛化的位置隐私保护方法

Info

Publication number: CN108111968B
Application number: CN201711380659.4A
Authority: CN
Inventors: 吕鑫; 施海涛; 曾涛; 马佳仕
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2017-12-20
Filing date: 2017-12-20
Publication date: 2020-08-21
Anticipated expiration: 2037-12-20
Also published as: CN108111968A

Abstract

本发明公开了一种基于泛化的位置隐私保护方法，包括：将轨迹数据的起止时间规格化，并基于此进行等价类划分；寻找等价类间的包含关系，并按序进行分组；每个分组内，根据时间区间进行k‑匿名集合构建。本发明设计了有效的匿名分组方式，在提升匿名成功率的同时，平衡了隐私保护和数据可用性之间的矛盾，保证了挖掘型位置服务的质量。

Description

一种基于泛化的位置隐私保护方法

技术领域

本发明涉及一种基于泛化的位置隐私保护方法，属于位置隐私保护技术领域。

背景技术

随着无线技术的快速发展，智能手机等终端设备的普及，基于位置服务(location-based service,LBS)的应用日益广泛。服务商需要对收集的历史数据进行分析挖掘以获得用户的兴趣特点，在此过程中，可能造成用户隐私的泄露。Terrovitis M等人提出了基于敏感数据抑制的隐私保护算法，不仅考虑了攻击者可能具备的背景知识，还分析了时间因素对隐私保护的影响，在保护用户隐私的同时提高了减小了数据损失。Chen等人使用了局部敏感数据抑制策略，保护用户位置数据中存在的隐私信息，有效地平衡了数据可用性与隐私保护之间的矛盾。目前位置服务中急需能够防止服务商通过历史数据恶意挖掘用户隐私的技术。

发明内容

本发明所要解决的技术问题是克服现有技术的缺陷，提供一种基于泛化的位置隐私保护方法，通过设计有效的匿名分组方式，提升了匿名成功率。

为解决上述技术问题，本发明提供一种基于泛化的位置隐私保护方法，包括如下步骤：

1)采集不同用户在位置服务器采样时间内生成的各自的轨迹，构成原始轨迹数据集D＝{tr₁,tr₂...tr_m}，将原始轨迹数据集中的每条轨迹进行预处理，然后进行等价类划分，得到原始轨迹数据集D的等价类集D′，下标m表示轨迹的数量；

其中，轨迹为位置服务商采集的用户位置数据按时间顺序排列形成的坐标集合，表示为：

tr_p＝{p₁,p₂,...p_n}，

下标n表示节点数；

轨迹中每个节点p_i都包含一组时间与坐标信息，表示为：

p_i＝(t_i,x_i,y_i)；

2)对等价类进行分组；

3)在每个等价类分组内，根据时间区间进行k-匿名集构建。

前述的对轨迹进行预处理具体为，假设位置服务器对轨迹tr_i的采样时间区间为[t_b,t_e]，选取时间划分参数π，将轨迹tr_i中的数据起止时间规格化为π的整数倍，具体为，将轨迹tr_i的采样时间范围内能够被π除尽的最小时间点作为该轨迹的开始时间，能够被π除尽的最大时间点作为该轨迹的结束时间，表示为：t_min＝min{t|t∈[t_b,t_e]∧t modπ＝0}，t_max＝max{t|t∈[t_b,t_e]∧t modπ＝0}，t指的是[t_b,t_e]中的任意值，t_min表示开始时间，t_max表示结束时间。

前述的进行等价类划分是指，规格化后的具有相同的开始和结束时间的轨迹构成一个等价类；将不同的等价类分别记为T₁,T₂,...,T_s，则原始轨迹数据集D的等价类集为：D′＝T₁∪T₂∪...∪T_s，s为划分后等价类的个数。

前述的对等价类进行分组，包括以下步骤：

2-1)将所述步骤1)得到的等价类按照时间区间长度进行降序排序；

2-2)将每个等价类根据时间区间包含关系分组，存在包含关系的等价类按顺序依次加入到集合ST，构成一个等价类分组；

2-3)合并所有集合ST，形成有包含关系等价类分组的集合SD输出。

前述的时间区间包含关系是指，若

则等价类T_i与等价类T_j之间存在时间区间包含关系，记为

其中，

为等价类T_j的开始时间和结束时间，

为等价类T_i的开始时间和结束时间。

前述的在进行等价类分组时，对于彼此间不完全相交或者完全不相交的等价类，则单独构成一个等价类，同样通过集合SD输出，并进行下一步的k-匿名集构建。

前述的进行k-匿名集构建，包括以下步骤：

3-1)从每个等价类分组中找出时间区间最大的等价类开始匿名划分；匿名划分的过程分为两步，首先按照距离阈值d进行k-匿名划分构成G_temp，即构成G_temp的各条轨迹间距离必须大于等于d，接着对其中各条轨迹相同时刻的位置点采用随机交换方式进行数据扰动并重构；

3-2)如果在处理的等价类分组中的等价类产生不可匿名的轨迹，则判断该等价类分组中是否存在未匿名划分的等价类，如果存在，则转入步骤3-3)；如果不存在，则丢弃该不可匿名的轨迹，然后转入步骤3-4)；如果在处理的等价类分组中的等价类没有不可匿名的轨迹，则直接转入步骤3-4)；所述不可匿名的轨迹就是无法满足距离阈值的轨迹，不能作为构成G_temp的轨迹；

3-3)将所述步骤3-2)不可匿名的轨迹截去头尾多出的时间段，即可归入到后续的等价类中，然后对加入了该不可匿名轨迹后构成的新的等价类，继续进行匿名划分，直至该等价类分组的等价类都匿名划分完成；

3-4)生成该等价类分组的k-匿名集合；

3-5)合并所有等价类分组的k-匿名集合，输出最终匿名集合G。

前述的步骤3-1)中，轨迹间的距离计算如下：

若轨迹tr_p和轨迹tr_q为具有相同的时间采样序列的同步轨迹，那么两条轨迹之间的距离定义为：

时间采样序列指的是对轨迹进行离散采样的时间点的集合，同步轨迹指的是具有相同的采样起止时间，且时间采样序列完全一致的轨迹。

本发明所达到的有益效果：

(1)本发明设计了有效的匿名分组方式，在提升匿名成功率的同时，平衡了隐私保护和数据可用性之间的矛盾，保证了挖掘型位置服务的质量。

(2)本发明保护了用户的隐私安全，适用于现有的众多位置服务场景。

附图说明

图1是本发明的等价类分组过程示意图；图1(a)为等价类预处理示意图；图1(b)为等价类排序示意图；图1(c)为等价类分组示意图；

图2是本发明的基于泛化的位置隐私保护方法的流程图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

如图2所示，本发明的基于泛化的位置隐私保护方法，包括如下步骤：

1)轨迹数据集预处理：

位置服务商采集的用户位置数据按时间顺序排列形成的坐标集合称为轨迹，可以表示为：tr_p＝{p₁,p₂,...p_n}，其中，每个节点都包含一组时间与坐标信息，即p_i＝(t_i,x_i,y_i)，下标n表示节点数。

采集不同用户在位置服务器采样时间内生成的各自的轨迹，构成原始轨迹数据集，将原始轨迹数据的起止时间规格化，并基于此进行等价类划分，具体过程如下：

对原始轨迹数据集D＝{tr₁,tr₂...tr_m}中的每条轨迹tr_i进行预处理，下标m表示轨迹的数量，tr_i表示第i用户的轨迹。假设位置服务器对轨迹tr_i的采样时间区间为[t_b,t_e]，选取时间划分参数π，将轨迹tr_i中的数据起止时间规格化为π的整数倍，具体为，将轨迹tr_i的起止时间范围内能够被π除尽的最小时间点作为该轨迹的开始时间，能够被π除尽的最大时间点作为该轨迹的结束时间，表示为：

t_min＝min{t|t∈[t_b,t_e]∧tmodπ＝0}，t_max＝max{t|t∈[t_b,t_e]∧tmodπ＝0}，t指的是[t_b,t_e]中的任意值。

所有的轨迹都进行起止时间规格化，规格化后具有共同的开始和结束时间的轨迹构成一个等价类，如图1(a)。

将不同的等价类分别记为T₁,T₂,...,T_s，s为划分后等价类的个数，那么最终的关于原始轨迹数据集D的等价类集为D′＝T₁∪T₂∪...∪T_s。

2)等价类分组：寻找等价类间的包含关系，并按序进行分组；

若等价类T_i与等价类T_j之间存在时间区间包含关系，即

记为

其中，

为等价类T_j的开始时间和结束时间，

为等价类T_i的开始时间和结束时间。

寻求等价类集D′中等价类间的包含关系，具体过程为，首先将经过步骤1)预处理后的等价类按照时间区间(等价类的开始时间和结束时间区间)长度进行降序排序，如图1(b)。然后将每个等价类根据时间区间包含关系分组，存在包含关系的等价类按顺序依次加入到集合ST，构成一个等价类分组，最后合并所有集合ST，形成有包含关系等价类分组的集合SD输出，如图1(c)。

例如，若轨迹tr₁的起止时间为15.11到15.47，轨迹tr₂的起止时间为15.13到15.52，设时间参数为π＝5min，那么计算t_min，发现tr₁的起止时间范围内15.15为最小的能除尽5的数，故t_min＝15.15，同理15.45为tr₁的起止时间范围内最大的能除尽5的数，故t_max＝15.45。而对于轨迹tr₂，t_min＝15.15，t_max＝15.5。

在两条轨迹的时间段内15.15为最小的能整除5的数，故t_min＝15.15，同理15.45为两条轨迹时间段内最大的能整除5的数，故t_max＝15.45。如此，两条轨迹都被规格化为相同的起止时间15.15到15.45。由此可见，两者的开始时间相同，但结束时间不同，故不属于一个等价类，但是存在包含关系，是一个等价类的分组。

经过规格化后的轨迹具有相同的起止时间，构成了一个等价类。不同等价类间的起止时间当然是不同的，彼此间存在三种关系，区间包含、时间区间相交、时间区间不相交。对于区间包含的等价类，构成一个等价类的分组；对于彼此间只部分相交或者完全不相交的等价类，则单独构成一个等价类的分组，同样通过集合SD输出，并进行下一步的k-匿名集构建。

具体等价类分组算法程序如下：

3)构建匿名集：每个等价类分组内，根据时间区间进行k-匿名集构建，具体过程为，

首先从每个等价类分组中找出时间区间最大的等价类开始匿名划分，匿名划分的过程分为两步，首先按照距离阈值d进行k-匿名划分构成G_temp，即构成G_temp的各条轨迹间距离必须大于等于d，接着对其中各条轨迹相同时刻的位置点采用随机交换方式进行数据扰动并重构。

轨迹间的距离计算如下：

若轨迹tr_p和轨迹tr_q为具有相同的时间采样序列的同步轨迹，那么两条轨迹之间的距离可以定义为：

采样序列指的是对轨迹进行离散采样的时间点的集合，如：(8点，8点半，9点，9点半)就是一个时间采样序列，同步轨迹指的是具有相同的采样起止时间，且采样序列完全一致的轨迹。

匿名划分过程中，对于产生的不可匿名的轨迹，截去头尾多出的时间段，即可归入到后续的等价类中，然后对新的等价类进行匿名划分。不可匿名的轨迹就是无法满足距离阈值的轨迹，不能作为构成G_temp的轨迹。

由于等价类分组中，各等价类的起始时间依次后延，终止时间依次提前，如图1(c)，所以产生的不可匿名的轨迹经过处理后可以加入到下一个等价类中，然后对新的等价类进行匿名划分。新的等价类就是加入了上一个等价类中的不可匿名轨迹后构成的等价类。

不断重复此过程，直至一个等价类分组内的所有等价类都完成匿名划分，生成一个k-匿名集合。对于不同的等价类分组，产生的不可匿名的轨迹则予以删除，最终合并所有等价类分组的k-匿名集合，输出最终匿名集合G。

构建匿名集的算法程序如下：

术语解释：k-匿名是指一个用户的位置信息不能与其他k-1个用户相区别，攻击者在不具备其他背景知识的前提下，将匿名集中的查询请求关联到真实用户概率不超过1/k。

用户在请求位置服务过程中采用本发明的位置隐私保护算法，即使位置服务商拥有大量用户的历史数据，但整个数据集由多个k-匿名集合，每个集合内的用户历史位置数据具有较高的相似性，最终位置服务商进行挖掘时，可以获得所需的关于用户整体性的模式信息，进而提供相应的位置服务，而无法获取用户个人的位置隐私。另外，数据在匿名集构建过程中，经过扰动处理，服务商内部的恶意攻击者无法将某些位置数据与具体的用户进行关联，进一步保护了用户的隐私。所以本发明保护了用户的隐私安全，同时提升了挖掘型位置服务的服务质量，尤其适用于现有的众多位置服务场景。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于泛化的位置隐私保护方法，其特征在于，包括如下步骤：

tr_p＝{p₁,p₂,...p_n}，

下标n表示节点数；

轨迹中每个节点p_i都包含一组时间与坐标信息，表示为：

p_i＝(t_i,x_i,y_i)；

对轨迹进行预处理具体为，假设位置服务器对轨迹tr_i的采样时间区间为[t_b,t_e]，选取时间划分参数π，将轨迹tr_i中的数据起止时间规格化为π的整数倍，具体为，将轨迹tr_i的采样时间范围内能够被π除尽的最小时间点作为该轨迹的开始时间，能够被π除尽的最大时间点作为该轨迹的结束时间，表示为：t_min＝min{t|t∈[t_b,t_e]∧t modπ＝0}，t_max＝max{t|t∈[t_b,t_e]∧t modπ＝0}，t指的是[t_b,t_e]中的任意值，t_min表示开始时间，t_max表示结束时间；

所述进行等价类划分是指，规格化后的具有相同的开始和结束时间的轨迹构成一个等价类；将不同的等价类分别记为T₁,T₂,...,T_s，则原始轨迹数据集D的等价类集为：D′＝T₁∪T₂∪...∪T_s，s为划分后等价类的个数；

2)对等价类进行分组；

3)在每个等价类分组内，根据时间区间进行k-匿名集构建，包括：

3-4)生成该等价类分组的k-匿名集合；

3-5)合并所有等价类分组的k-匿名集合，输出最终匿名集合G。

2.根据权利要求1所述的一种基于泛化的位置隐私保护方法，其特征在于，所述对等价类进行分组，包括以下步骤：

3.根据权利要求2所述的一种基于泛化的位置隐私保护方法，其特征在于，所述时间区间包含关系是指，若