CN113946867A

CN113946867A - 基于空间影响力的位置隐私保护方法

Info

Publication number: CN113946867A
Application number: CN202111231494.0A
Authority: CN
Inventors: 章静; 许志平; 林力伟; 石思彤; 李雁姿; 丁倩
Original assignee: Fujian University of Technology
Current assignee: Fujian University of Technology
Priority date: 2021-10-21
Filing date: 2021-10-21
Publication date: 2022-01-18
Anticipated expiration: 2041-10-21
Also published as: CN113946867B

Abstract

本发明涉及一种基于空间影响力的位置隐私保护方法。考虑PoI的空间影响力来生成攻击者很难区分的虚拟轨迹，并保护用户的位置语义。更确切的说，（1）选择在每个匿名集合中有尽可能多的PoI类别的虚拟位置，（2）相邻匿名集合的每个虚拟位置满足空间影响条件。

Description

基于空间影响力的位置隐私保护方法

技术领域

本发明涉及位置隐私保护领域，尤其属于一种基于空间影响力的位置隐私保护方法。

背景技术

随着5G技术的日益成熟和移动智能设备的日益普及，大量基于位置的服务深刻地改变了人们的生活方式。我们可以随时查询与位置相关的服务信息，享受便捷的服务，如FindYou、Uber 等。同时，服务提供商可以连续采集大量的轨迹。挖掘这些轨迹数据可以支持与移动对象相关的各种应用。例如，Uber和其他在线租车公司可以根据移动用户的轨迹来优化拼车方案。

随着人们对个人隐私和人身安全的日益关注，如果LBS不能在提供便捷服务的同时保护用户的隐私，其发展将受到严重限制。因此，许多位置隐私保护方法被提出。这些方法大多基于 k-匿名技术。这个技术通过构造k-匿名集使得移动用户的轨迹与其他k-1轨迹无法区分。与传统的k-匿名技术相比，一种新的基于语义的k-匿名方法还可以保护用户的位置语义不受对手攻击，更适合实际环境。因此，基于语义的位置隐私保护方法成为研究热点。它包括两个阶段：语义位置挖掘和语义位置保护。语义位置挖掘是指通过PoI注释轨迹来提取用户的语义信息。在注释过程中，首先检测用户的停留点，包括该停留点的位置、用户的到达时间、离开时间和停留时长。然后用附近的PoI标记敏感位置。比如可以使用停留点最近的PoI作为位置的语义信息。语义位置保护旨在通过生成相似的虚拟语义位置来保护挖掘出的语义信息。因此，在语义位置保护过程中，需要选择与用户语义位置相似的PoI。目前可以通过PoI的位置、PoI的业务时间或PoI的平均使用时间等参数作为特征向量进行捕获，以度量语义位置之间的相似性。此外，不同的位置语义类别具有不同的语义属性，代表不同的用户属性。例如，很容易推断用户在就餐时会去餐馆就餐。如果他整个工作时间都呆在餐厅，他可能是一名员工。因此，最理想的情况是将不同的语义位置强制加入k-匿名集。为了防止对手区分虚拟位置，还需要使得连续匿名集保持合理的安全性。连续匿名集的位置之间的转移概率相等。尽管这些以前的方法保证了一定程度的位置隐私，但这两种技术都有一个关键的局限性。目前，Rong Tan等人提出一种基于移动位置服务的隐私保护语义轨迹数据发布方法(Rong Tan,Yuan Tao,Wen Si,Yuan-Yuan Zhang. privacypreserving semantic trajectory data pub1ishing for mobi1e 1ocation basedservices[J]. Wireless Networks,2019(1))，该方案基于k-匿名模型的语义轨迹匿名化，可以形成包含与敏感点相似的k-1POI点的敏感区域。然后，根据敏感区域的运动模式、道路网络拓扑和道路权重执行轨迹匿名。最后，进行相似性比较以获得可记录和可发布的匿名轨迹集。

现有技术的主要缺点：

一是生成的轨迹没有考虑到位置的空间影响力，导致攻击者容易识别出匿名集中的假轨迹；二是没有不能保护用户的语义位置，使攻击者容易推断出用户的敏感信息。如图所示，在图1 中，T_r是用户的真实轨迹，T₁是由现有k-匿名方案生成的虚拟轨迹。该方法有两个缺点：(1) 真实轨迹原点的PoI类别与虚拟轨迹相同。攻击者可能会推断用户的家位于原始匿名区域，该区域非常小。(2)在该匿名区附近有一个加油站。如果用户想给汽车加油，他会选择最近的加油站而不是更远的加油站。这意味着原点超出了目的地PoI的空间影响力范围。攻击者很有可能识别出虚拟轨迹。由于攻击者可能利用这些缺点进行攻击，因此现有方法生成的匿名集轨迹有可能被识别。

发明内容

本发明的目的在于针对上述缺点，提供一种基于空间影响力的位置隐私保护方法，考虑PoI 的空间影响力来生成攻击者很难区分的虚拟轨迹，并保护用户的位置语义。更确切的说，(1) 选择在每个匿名集合中有尽可能多的PoI类别的虚拟位置，(2)相邻匿名集合的每个虚拟位置满足空间影响条件。

为实现上述目的，本发明的技术方案是：一种基于空间影响力的位置隐私保护方法，包括如下步骤：

步骤S1、使用改进的基于密度峰值算法来检测轨迹的停留点；

步骤S2、用附近的PoI来注释停留点，挖掘轨迹的语音信息；

步骤S3、使用Hilbert曲线离真实位置更近的4k个虚假位置作为初始候选假位置；

步骤S4、使用余弦相似性筛选与真实位置语义相似的假位置；

步骤S5、使用多样化的语义位置选择算法筛选出2k个PoI语义类别的候选假位置；

步骤S6、使用Kuhn-Munkres算法来匹配最终的k条访问概率相近的轨迹。

在本发明一实施例中，所述步骤S1的实现方式为：使用改进的基于密度峰值算法来检测轨迹的停留点时，首先检测出轨迹的子停留点，其坐标是连续停留采样点的质心，然后再用改进的基于密度峰值聚类算法来提取停留点，基于密度峰值聚类算法中的局部密度时所有距离小于 d_c的子停留点的停留时长之和。

在本发明一实施例中，所述步骤S1具体实现如下：

首先检测子停留点s_j，给定由一组连续停留采样点s_j＝{p_i，p_i+1，...，p_m}构成的子停留点；子停留点s_j的坐标是连续停留采样点的质心，子停留点s_j的到达时间是第一个采样点的时间戳，子停留点s_j的离开时间是最后一个采样点的时间戳；

s.t_a＝p_i.t

s.t_d＝p_m.t

然后，使用改进的基于密度峰值聚类算法来提取停留点，在改进密度峰值聚类算法中，s_j的局部密度ρ_i的计算公式为：

其中，d_ij是两个子停留点的s_i与s_j的距离，d_c是一个截断距离，χ(x)是逻辑判断功能，如果 x＜0，则χ(x)＝1；否则χ(x)＝0；Δt_j是子停留点的停留时长，Δt_j＝t_d-t_a；即ρ_i是所有距离小于d_c的子停留点s_i的停留时长的和。

在本发明一实施例中，所述步骤S2考虑定位设备的误差，选择停留时长与停留点偏差最小的PoI作为停留点的位置语义。

在本发明一实施例中，所述步骤S2具体实现如下：

给定距离偏转阈值d_def，选择所有离停留点的距离小于d_def的PoI作为候选假位置；

然后，利用停留时间和使用时间两个定量特征来过滤掉不符合的假位置；停留点的到达时间必须早于PoI的开放时间，停留点的离开时间必须早于PoI的关闭时间，其定义如下：

其中t_open是PoI的开放时间，t_close是PoI的关闭时间；

最后，选择停留时长与停留点偏差最小的PoI作为停留点的位置语义。

在本发明一实施例中，所述步骤S3具体实现如下：

使用Hilbert曲线来选取离真实位置更近的虚假位置：首先构造停留点附近候选PoI的对应的Hilbert曲线值，然后，根据停留点的位置选择原始PoI最近的4k个候选PoI。

在本发明一实施例中，所述步骤S4具体实现如下：

为使虚拟位置的语义与真实位置的语义相似，考虑到用户在PoI的持续时间是呈正态分布，采用五个参数来定义PoI的相似性：PoI的位置、PoI的开放时间、PoI的关闭时间、停留时间的预期、停留时间的方差，表示为loc，t_open，t_close，E_dur，V_dur>，并用余弦相似度来计算两个停留点之间的相似度，余弦相似度的计算公式如下：

其中，P_i和P_j表示不同类别的PoI，sim(P_i，P_j)表示两类PoI之间的语义相似性，sim(P_i，P_j) 值越高，它们就越相似，并根据相似性来过滤其中的假位置。

在本发明一实施例中，所述步骤S5具体实现如下：

为更好地保护语义位置隐私，匿名集PoI语义类别的数量应该尽可能多，采用多样化的语义位置选择算法，算法根据PoI类别的不同级别生成相似PoI集分类的多级嵌套PoI集C，具有相同语义的中类PoI位于相同的大类集合C_d中，在大类集合C_d中，具有相同语义的小类PoI位于相同的中类集合C_z中，然后删除C中所有级别具有相同语义类别的PoI。

在本发明一实施例中，所述步骤S6使用Kuhn-Munkres算法来匹配最终的k条访问概率相近的轨迹时，首先计算每个语义位置的空间影响力，并计算相邻匿名集位置之间的访问概率，最后用有向带权二部图来模拟相邻匿名集位置之间的关系，并用Kuhn-Munkres算法来匹配访问概率相近的轨迹。

在本发明一实施例中，所述步骤S6具体实现如下：

(1)空间影响力的计算

假设PoI P_i处于网格g_i中，移动用户u_i处于网格g_k中，他从网格g_k访问g_j，需要注意的是有可能g_k＝g_j，通过在地理空间网格上进行整合，并假设用户在网格之间转移的概率模型特性，P_i对网格g_k的空间影响I_i通过以下方式计算：

I_i＝Pr(g_j|g_k)Pr(P_i|g_j)

其中，第一个因子Pr(g_j|g_k)是从g_k到g_i的转移概率，它是基于重力模并使用真实用户的移动数据集来学习的，第二个因子Pr(P_i|g_j)是网格g_i中P_i的访问频率，它是通过计算网格g_i内P_i处的访问频率并进行核密度估计以获得平滑分布而获得的；

PoI的属性由空间影响力表示，空间影响力表示吸引其他地方用户的影响程度，这表明，对于具有多个停留点的轨迹，后一个停留点所处的PoI能够吸引前一个停留点的用户向目标移动；

(2)访问概率的计算

将一天划分为24小时间隔，对于语义中类的每个PoI，每个小时都有不同的小时到达概率，表示为pr_{arrial，index}，它可以使用真实用户的移动数据集来学习，考虑到PoI的空间影响力，采用PoI空间影响阈值δ_I定义为过滤两个相邻的匿名集的PoI，需满足以下条件：

I＞δ_I

因此，u_i访问P_i的概率计算公式为：

(3)假轨迹的匹配

为最大限度地保护用户的位置隐私，匹配所有具有相似访问概率的停留点匿名集，形成k-1 条虚拟轨迹，设

表示由第i_th个停留点生成的候选虚拟位置集，设

表示由第i+1_th个停留点生成的候选虚拟位置集，LS_i和LS_i+1都包括2k-1虚拟停留点和用户的真实停留点，并由LS_i和LS_i+1生成有向带权二部图，每个集合在图的一侧形成顶点，有向边连接

到

边的权重是

中的用户访问

的概率，再使用Kuhn-Munkres算法来匹配最终的k条轨迹，使得前后匿名集匹配出的轨迹的访问概率相似。

相较于现有技术，本发明具有以下有益效果：

(1)利用Hilbert曲线选择最接近真实位置的虚拟位置候选，减少了匿名区域的面积，提高了数据的可用性。

(2)提出了一种多样化的语义位置选择算法，以选择更多的匿名集语义类别，从而保护用户的语义位置。

(3)提出了一种基于空间影响的语义位置隐私保护算法。考虑语义位置的空间影响力，将虚拟轨迹生成问题转化为有向二部图的匹配问题。采用Kuhn-Munkres算法选择最终K条轨迹，生成难以被敌方识别的轨迹。

附图说明

图1为现有匿名集轨迹生成方法示意图。

图2为本发明匿名集轨迹生成方法示意图。

图3为多级嵌套PoI。

图4为空间影响力。

图5为带权二部图。

图6为本发明方法流程图。

图7为停留点的检测结果示意图。

具体实施方式

下面结合附图，对本发明的技术方案进行具体说明。

本发明一种基于空间影响力的位置隐私保护方法，包括如下步骤：

步骤S2、用附近的PoI来注释停留点，挖掘轨迹的语音信息；

以下为本发明具体实现过程。

图2为本发明匿名集轨迹生成方法示意图。

本发明一种基于空间影响力的位置隐私保护方法，具体实现步骤如下：

1、停留点的检测

针对停留点的特点，提出了一种基于聚类的停留点检测策略。

首先检测子停留点s_j。给定由一组连续停留采样点s_j＝{p_i，p_i+1，...，p_m}.构成的子停留点.子停留点s_j的坐标是连续停留采样点的质心。子停留点s_j的到达时间是第一个采样点的时间戳。子停留点s_j的离开时间是最后一个采样点的时间戳。

s.t_a＝p_i.t

s.t_d＝p_m.t

然后，本发明使用提出的改进的基于密度峰值聚类算法来提取停留点。在改进密度峰值聚类算法中，s_j的局部密度ρ_i的计算公式为：

其中，d_ij是两个子停留点的s_i与s_j的距离,d_c是一个截断距离。χ(x)是逻辑判断功能,，如果x＜0，则χ(x)＝1；否则χ(x)＝0。Δt_j是子停留点的停留时长，Δt_j＝t_d-t_a。即ρ_i是所有距离小于d_c的子停留点s_i的停留时长的和。

2、挖掘位置语义

给定距离偏转阈值d_def，选择所有离停留点的距离小于d_def的PoI作为候选假位置。

然后，利用停留时间和使用时间两个定量特征来过滤掉不符合的假位置。因为用户总是在 PoI营业时间访问PoI。因此，停留点的到达时间必须早于PoI的开放时间，停留点的离开时间必须早于PoI的关闭时间，其定义如下：

其中t_open是PoI的开放时间，t_close是PoI的关闭时间。

3、初始候选假位置的生成

为了生成更小面积的匿名区域，以提高轨迹发布后的数据可用性。本发明使用Hilbert曲线来选取离真实位置更近的虚假位置。为此，首先构造了停留点附近候选poi的对应的Hilbert曲线值。然后，根据停留点的位置选择原始PoI最近的4k个候选PoI。

为了使虚拟位置的语义与真实位置的语义相似。考虑到用户在PoI的持续时间是呈正态分布，本发明采用五个参数来定义PoI的相似性：PoI的位置、PoI的开放时间、PoI的关闭时间、停留时间的预期、停留时间的方差，表示为loc，t_open，t_close，E_dur，V_dur＞。并用余弦相似度来计算两个停留点之间的相似度。余弦相似度的计算公式如下：

其中，P_i和P_j表示不同类别的PoI。sim(P_i，P_j)表示两类PoI之间的语义相似性。sim(P_i，P_j) 值越高，它们就越相似。并根据相似性来过滤其中的假位置。

每个匿名集合中的PoI类别越多，意味着位置隐私保护效果越好。在隐私保护中，最理想的情况是将各种POI种类强制纳入匿名集。因此，为了更好地保护语义位置隐私，匿名集PoI 语义类别的数量应该尽可能多。本方案提出了一种多样化的语义位置选择算法。算法根据PoI 类别的不同级别生成相似PoI集分类的多级嵌套PoI集C，具有相同语义的中类PoI位于相同的大类集合C_d中。在大类集合C_d中，具有相同语义的小类PoI位于相同的中类集合C_z中。然后删除C中所有级别具有相同语义类别的PoI。图3所示为多级嵌套PoI。

4、假轨迹的生成

(1)空间影响力的计算(如图4所示)

假设PoIP_i处于网格g_i中，移动用户u_i处于网格g_k中，他从网格g_k访问g_j。需要注意的是有可能g_k＝g_j。通过在地理空间网格上进行整合，并假设用户在网格之间转移的概率模型(如马尔可夫模型)特性，P_i对网格g_k的空间影响I_i通过以下方式计算：

I_i＝Pr(g_j|g_k)Pr(P_i|g_j)

其中，第一个因子Pr(g_j|g_k)是从g_k到g_i的转移概率，它是基于重力模并使用真实用户的移动数据集来学习的。第二个因子Pr(P_i|g_j)是网格g_i中P_i的访问频率。它是通过计算网格g_i内P_i处的访问频率并进行核密度估计以获得平滑分布而获得的。

在本方案中，PoI的属性由空间影响力表示。空间影响力表示吸引其他地方用户的影响程度。这表明，对于具有多个停留点的轨迹，后一个停留点所处的PoI能够吸引前一个停留点的用户向目标移动。

(2)访问概率的计算

本方案将一天划分为24小时间隔。对于语义中类的每个PoI，每个小时都有不同的小时到达概率，表示为pr_{arrial，index}，它可以使用真实用户的移动数据集来学习。考虑到PoI的空间影响力，提出了PoI空间影响阈值δ_I定义为过滤两个相邻的匿名集的PoI，需满足以下条件：

I＞δ_I

因此，u_i访问P_i的概率计算公式为：

(3)假轨迹的匹配

在本方案中，为了最大限度地保护用户的位置隐私，我们匹配所有具有相似访问概率的停留点匿名集，形成k-1条虚拟轨迹。设

表示由第i_th个停留点生成的候选虚拟位置集。设

表示由第i+1_th个停留点生成的候选虚拟位置集。LS_i和 LS_i+1都包括2k-1虚拟停留点和用户的真实停留点。并由LS_i和LS_i+1生成有向带权二部图(图5 所示)。每个集合在图的一侧形成顶点。有向边连接

到

边的权重是

中的用户访问

的概率。再使用Kuhn-Munkres算法来匹配最终的k条轨迹。使得前后匿名集匹配出的轨迹的访问概率相似。

图6为本发明方法的具体实现流程图。

图7为采用本发明方法的停留点检测结果示意图。

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种基于空间影响力的位置隐私保护方法，其特征在于，包括如下步骤：

步骤S2、用附近的PoI来注释停留点，挖掘轨迹的语音信息；

2.根据权利要求1所述的基于空间影响力的位置隐私保护方法，其特征在于，所述步骤S1的实现方式为：使用改进的基于密度峰值算法来检测轨迹的停留点时，首先检测出轨迹的子停留点，其坐标是连续停留采样点的质心，然后再用改进的基于密度峰值聚类算法来提取停留点，基于密度峰值聚类算法中的局部密度时所有距离小于d_c的子停留点的停留时长之和。

3.根据权利要求1或2所述的基于空间影响力的位置隐私保护方法，其特征在于，所述步骤S1具体实现如下：

s.t_a＝p_i.t

s.t_d＝p_m.t

其中，d_ij是两个子停留点的s_i与s_j的距离，d_c是一个截断距离，χ(x)是逻辑判断功能，如果x＜0，则χ(x)＝1；否则χ(x)＝0；Δt_j是子停留点的停留时长，Δt_j＝t_d-t_a；即ρ_i是所有距离小于d_c的子停留点s_i的停留时长的和。

4.根据权利要求1所述的基于空间影响力的位置隐私保护方法，其特征在于，所述步骤S2考虑定位设备的误差，选择停留时长与停留点偏差最小的PoI作为停留点的位置语义。

5.根据权利要求1或4所述的基于空间影响力的位置隐私保护方法，其特征在于，所述步骤S2具体实现如下：

其中t_open是PoI的开放时间，t_close是PoI的关闭时间；

6.根据权利要求1所述的基于空间影响力的位置隐私保护方法，其特征在于，所述步骤S3具体实现如下：

7.根据权利要求1所述的基于空间影响力的位置隐私保护方法，其特征在于，所述步骤S4具体实现如下：

其中，P_i和P_j表示不同类别的PoI，sim(P_i，P_j)表示两类PoI之间的语义相似性，sim(P_i，P_j)值越高，它们就越相似，并根据相似性来过滤其中的假位置。

8.根据权利要求1所述的基于空间影响力的位置隐私保护方法，其特征在于，所述步骤S5具体实现如下：

9.根据权利要求1所述的基于空间影响力的位置隐私保护方法，其特征在于，所述步骤S6使用Kuhn-Munkres算法来匹配最终的k条访问概率相近的轨迹时，首先计算每个语义位置的空间影响力，并计算相邻匿名集位置之间的访问概率，最后用有向带权二部图来模拟相邻匿名集位置之间的关系，并用Kuhn-Munkres算法来匹配访问概率相近的轨迹。

10.根据权利要求1或9所述的基于空间影响力的位置隐私保护方法，其特征在于，所述步骤S6具体实现如下：

(1)空间影响力的计算