CN110516476B

CN110516476B - 基于频繁位置分类的地理不可区分性位置隐私保护方法

Info

Publication number: CN110516476B
Application number: CN201910820524.8A
Authority: CN
Inventors: 罗惠雯; 龙士工; 赵龙; 孙志强
Original assignee: Guizhou University
Current assignee: Guizhou University
Priority date: 2019-08-31
Filing date: 2019-08-31
Publication date: 2022-05-13
Anticipated expiration: 2039-08-31
Also published as: CN110516476A

Abstract

本发明公开了一种基于频繁位置分类的地理不可区分性位置隐私保护方法，该方法能有效地保护位置隐私，且消耗较少的隐私损耗。由于用户到访过的位置的频繁度，极大程度上影响了攻击者对于用户位置轨迹的推断结果。目前的位置隐私保护方法，主要是对位置数据直接进行模糊处理，对所有位置点加以同等程度的隐私保护级别。本发明提出了一种新的位置扰动思路，根据位置点分布的频繁程度，对其进行分类，为每个类分配不同的隐私预算。通过地理不可区分性扰动机制对位置集进行扰动。通过基于信息熵的度量方法，对输出结果进行信息量的度量。使用真实数据证明该方法能显著降低隐私损耗，并且能够达到较好的隐私保护效果。

Description

基于频繁位置分类的地理不可区分性位置隐私保护方法

技术领域

本发明涉及地理位置信息安全领域，特别涉及到地理位置聚类方法，地理不可区分性方法。属于差分隐私保护技术领域。

背景技术

随着基于地理位置信息的服务在移动设备上的广泛应用，获取用户的位置信息为个性化用户体验带来了额外的价值。然而，人们到访过的位置信息，会不经意地揭露他们的行动轨迹，甚至是住址、喜好和习惯等极其敏感的信息。差分隐私作为隐私保护领域的重要研究课题受到了越来越多学者们的关注。差分隐私是针对统计数据集的隐私保护概念，通过在查询函数的返回值中添加受控噪音，实现在保护个人隐私数据的同时，发布关于数据集的聚合信息。

地理不可区分性是对差分隐私在几何空间中的拓展，其添加噪音的方法为，用极坐标的方式绘制以用户的真实位置为圆心，以符合Gamma分布的r为半径的圆形小区域。在该小区域内，用户的真实位置与扰动位置是不可区分的。地理不可区分性旨在保护个人确切位置的同时，提供足够的位置信息以获取所需的服务。由于位置数据集稀疏性的特点，相比于差分隐私，地理不可区分性更好地解决了位置信息保护场景中存在的敏感度较大及准确性较差的隐私度量问题。

DBSCAN是机器学习中经典的基于密度的聚类算法。该算法根据密度可达关系将高密度区域划分为一簇。利用聚类算法对位置数据进行分类，根据聚类结果来分配隐私预算，可以对用户在某敏感区域内出现的频数进行扰动，以达到隐私保护的目的。

支撑图在图论的研究中起着重要的作用，当地理不可区分性应用于多个位置点的保护时，使用支撑图技术对位置点的噪音集进行预处理，可以有效地满足隐私保护需求的同时，实现降维的目的。

发明内容

本发明提出了一种基于频繁位置分类的地理不可区分性位置隐私保护方法。该方法首先通过聚类算法对位置数据集进行分类，根据划分的层数及每个簇中位置点出现的频数划分隐私预算，用于确定向每个簇中添加噪音量的大小。然后，构造地理不可区分性隐私保护模型。使用贪心算法，对原始位置数据的噪音集生成支撑图，减小加噪过程的时间复杂度。再次，根据划分的隐私预算向每个簇内添加不同的受控噪音。最后，利用质量损耗度量该方法的效用；同时，提出了一种基于信息熵的方法，来度量算法可能泄露的用户信息量的多少。使用GeoLife数据集验证显示，该方法能有效降低噪音量，并有较好的隐私保护效果。其模型框架图如附图1所示。

本发明的技术方案为：基于频繁位置分类的地理不可区分性位置隐私保护方法，所述方法包括以下步骤：

步骤1：根据位置点出现的频繁程度，通过聚类算法，对位置数据集进行分类；

步骤2：构建满足地理不可区分性的位置扰动模型，并构造支撑图；

步骤3：根据聚类的簇数及每个簇内位置点的密度分配隐私预算，向位置集添加噪音；

步骤4：使用基于信息熵及质量损耗的度量方法，对真实数据进行验证。所述步骤1利用机器学习中基于密度的聚类算法DBCSAN，对数据集进行分类，统计每个聚类的簇中出现位置点的频数。

所述步骤2，构造地理不可区分性隐私保护模型，通过构造支撑图的方法提高加噪过程的效率。

所述步骤3，根据步骤1的聚类结果，根据每个聚类的簇出现位置点的频数，为每个的簇分配隐私预算，添加噪音。

所述步骤4，对步骤3的结果，进行基于信息熵的隐私度量，能够度量可能泄露的信息量的多少，使用GeoLife数据集验证所述方法的隐私保护效用，从而验证其可用性及有效性。

有益效果

本发明提供了基于频繁位置分类的地理不可区分性位置隐私保护方法。用户的位置隐私不仅与其到访过的位置有关，也与用户在某区域内出现的频繁程度有关。在通常的隐私保护方法中，采用直接向数据集添加受控噪音，来达到隐私保护的目的。这样一来，可能造成用户出现在某敏感区域的频数仍然较高。如果频数较高，则通过对用户的侧面信息进行建模，攻击者推断出用户实际所在区域的概率相对较高。本发明提供了一种对空间位置数据模糊化处理的思路，结合机器学习基于密度的聚类算法，有针对性地分配隐私预算，将较高密集区域内位置点的频数，扩散到周边的较低密集区域，从而更好地达到扰动效果。对出现频数较高的区域分配相对较大的噪音量，而对出现频数较低的区域，则分配较小的隐私预算，从而提升隐私保护的效用。

同时，本发明还提供了一种隐私量度量方法。由于在本场景中，信息熵以用户出现在某区域内的概率来衡量用户访问位置的不确定性，所以使用基于信息熵的方法来度量，能够更好地反应到访位置点可能泄露信息量的多少。该方法可以更科学地反应隐私的泄露情况及保护程度。通过真实数据集，证明了基于频繁位置分类的地理不可区分性位置隐私保护方法的效用。

附图说明

图1为本发明所述基于频繁位置分类的地理不可区分性位置隐私保护模型；

图2为热力图的对比结果。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将参照本说明书附图对本发明作进一步的详细描述。

实行本发明的方法，首先执行步骤1，通过DBSCAN聚类算法对位置集进行分类操作。令原始位置集X＝[x₁，x₂，...x_n]，样本x_i∈X，若x_i的

邻域内至少包含minpts个样本，则x_i为核心点。根据给定邻域

及minpts确定核心点，对每个核心点选择一个未处理的对象，根据密度可达选择样本，来生成一个簇。得到簇C₁，C₂，...C_m，并统计每个簇内位置点的密集程度。

然后执行步骤2，构造基于频繁位置分类的地理不可区分性位置隐私保护模型如图1所示。该模型对位置点添加噪音的方式是以用户的真实位置为圆心，画半径r符合Gamma分布的圆形区域，即

其中x′为x的噪音点，ε为隐私预算。即，设该机制K满足ε-地理不可区分性，则对圆形区域内所有欧几里德度量d(x，x′)≤r，机制K的查询函数满足公式K(x)(z)≤e^{εd(x，x′)}K(x′)(z)，其中K(x)(z)为机制K的输入为x时，得到的输出为z的概率，x′即为x的噪音点。

由于在该区域内的任意点都可以作为报告的噪音点。对这些噪音点生成一个稀疏的支撑图G，能够保证在ε隐私保护约束不变的情况下，提高算法的效率。令G＝(X，E)为位置点x的噪音集X′的t-支撑图，其中t为支撑因子。则对所有(x，x′)∈E，d_G(x，x′)＞t*d_x′(x，x′)，其中d_x′(x，x′)为x与x′间的欧式距离。

再次，根据聚类所产生的簇数及每个簇内位置点的计数分配隐私预算。根据每个簇内位置点的密集程度，从高到低以依次递减的方式分配隐私预算，将总隐私预算ε划分为ε₁，ε₂，…ε_m。分别向每个簇C_i添加隐私预算为ε_i的噪音，得到噪音集X′。使用质量损耗

来表达扰动函数为K(x)(x′)的机制所产生的质量损耗，其中

为用户的侧面信息，通过对每个簇内出现位置点的概率进行归一化处理，从而得到用户的侧面信息。

最后，利用基于信息熵的度量方式对可能泄露的信息量进行度量。令隐私

设对数据进行扰动前后的信息熵分别为H(X)，H(X′)，

其中m为聚类的簇数，p(x_i)为x_i可能出现在簇C_i中的概率。改变总的隐私预算，计算并统计不同情况下的H_i(X′)。则

为了验证本发明的效用，我们使用了微软亚洲研究院提供的GeoLife数据集及百度地图API SDK。GeoLife数据集包括了182位用户在北京市的活动轨迹，我们选取了仅2008年11月3日当天用户到访过的位置点，并每隔1min抽取一条记录。调用百度地图API对位置数据绘制热力图，能够观察出用户出现在不同区域的频繁程度。将分别通过本发明的方法与传统方法得到的扰动位置集，与原始位置集进行对比，证明本发明对位置隐私保护的效果更好。热力图的对比结果如图2所示。

本发明未详述之处，均为本技术领域技术人员的公知技术。最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.基于频繁位置分类的地理不可区分性位置隐私保护方法，其特征在于包括以下步骤：

步骤1：根据位置点的聚集程度，通过基于密度的聚类算法，对位置数据集进行分类；具体为：首先，通过DBSCAN聚类算法对位置集进行分类操作，令原始位置集X＝[x₁，x₂，...x_n]，样本x_i∈X，若x_i的

邻域内至少包含minpts个样本，则x_i为核心点，根据给定邻域

及minpts确定核心点，对每个核心点选择一个未处理的对象，根据密度可达选择样本，来生成一个簇，得到簇C₁，C₂，...C_m，并统计每个簇内位置点的密集程度；

步骤2：构建满足地理不可区分性的位置隐私保护模型，并构造支撑图；具体为：该位置隐私保护模型对位置点添加噪音的方式是以用户的真实位置为圆心，画半径r符合Gamma分布的圆形区域，即

其中x′为x的噪音点，ε为隐私预算，即，设机制K满足ε-地理不可区分性，则对圆形区域内所有欧几里德度量d(x，x′)≤r，机制K的查询函数满足公式K(x)(z)≤e^{εd(x，x′)}K(x′)(z)，其中K(x)(z)为机制K的输入为x时，得到的输出为z的概率，x′即为x的噪音点；对这些噪音点生成一个支撑图G，令G＝(X，E)为位置点x的噪音集X′的t-支撑图，其中t为支撑因子，则对所有(x，x′)∈E，d_G(x，x′)＞t*d_X′(x，x′)，其中d_X′(x，x′)为x与x′间的欧式距离；

步骤3：根据聚类的每个簇内位置点的密度及簇数分配隐私预算，向位置点添加噪音；具体为：根据每个簇内位置点的密集程度，从高到低以依次递减的方式分配隐私预算，将总隐私预算ε划分为ε₁，ε₂，...ε_m，分别向每个簇C_i添加隐私预算为ε_i的噪音，得到噪音集X′，使用质量损耗

来表达扰动函数为K(x)(x′)的机制所产生的质量损耗，其中

为用户的侧面信息，通过对每个簇内出现位置点的概率进行归一化处理，得到用户的侧面信息；

步骤4：使用基于信息熵及质量损耗的度量方法，对真实数据进行验证；具体为：利用基于信息熵的度量方式对可能泄露的信息量进行度量，令隐私

设对数据进行扰动前后的信息熵分别为H(X)，H(X′)，

其中m为聚类的簇数，p(x_i)为x_i可能出现在簇C_i中的概率；改变总的隐私预算，计算并统计不同情况下的H_i(X′)；则

2.根据权利要求1所述的方法，其特征在于，所述步骤4，对步骤3的结果，进行基于信息熵的隐私度量，能够度量可能泄露的信息量的多少，使用GeoLife数据集验证所述方法的隐私保护效用，验证其可用性及有效性。