CN117195249B

CN117195249B - 基于差分隐私的矢量地理数据脱密处理方法和系统

Info

Publication number: CN117195249B
Application number: CN202310986550.4A
Authority: CN
Inventors: 徐彦彦; 徐雅鑫
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2023-08-04
Filing date: 2023-08-04
Publication date: 2024-04-09
Anticipated expiration: 2043-08-04
Also published as: CN117195249A

Abstract

本发明属于信息安全保护领域，本发明公开了基于差分隐私的矢量地理数据脱密处理方法和设备。首先，针对不同区域所需保护程度不同的现实需求，结合地图信息测度理论提出了一种基于地理敏感信息量的空间划分聚合方法SC，对区域的敏感性进行划分，进而分配隐私预算，使得敏感性高的区域，分配的隐私预算较小，达到保护程度较高的目的。其次，为了在给定脱密精度范围和保证数据安全的前提下，能够保持数据脱密前后的空间关系，结合函数扰动的思想和截断拉普拉斯机制，设计了一种模型扰动方法FM‑TL，该方法可量化分析脱密模型的安全性和脱密数据的可用性。最后，通过区域数据重构，得到脱密后的矢量地理数据。

Description

基于差分隐私的矢量地理数据脱密处理方法和系统

技术领域

本发明属于信息安全保护领域，具体涉及一种基于差分隐私的矢量地理数据脱密框架，可用于矢量地理数据数据的安全共享。

背景技术

随着大数据技术的快速发展，各行各业对地理信息的需求越来越迫切，相应的安全问题也日益突出。矢量地理数据是地理信息领域中最常用的数据类型，是国家重要的地理信息数据资源，其安全保护和共享应用是地理信息领域主要待解决的问题之一。我国在相关领域通过法律法规对矢量地理数据的安全保护和共享应用做出了相应规定，如《中华人民共和国测绘法》和《地理信息保密处理技术研发和服务的通知》(22号通知)表明需要对矢量地理数据进行几何位置脱密处理，降低几何位置精度，以满足矢量地理数据安全共享和使用需求。此外，最新发布的《公开地图内容表示规范》对公开地图的位置精度进行了限制。矢量地理数据是地理信息领域中最常用的数据类型之一，是国家重要的地理信息数据资源，其安全保护和共享应用是地理信息领域主要待解决的问题之一。

脱密方法要保证脱密的安全性、脱密误差可控、脱密数据可用，脱密算法高效。现有的几何位置精度脱密方法的研究主要针对非线性变换模型，然而，该类模型都是通过添加随机值或调整偏移量以提高脱密模型的安全性，并根据实验结果反复迭代以提高脱密数据的可用性，不仅脱密效率较低，且无法定量分析脱密模型的安全性和脱密数据可用性，难以实现安全性和可用性的均衡。因此，有必要在可定量分析的前提下，研究对矢量地理数据脱密处理的方法。

差分隐私技术作为一种隐私保护模型，从数学上严格定义了隐私保护强度，该模型不关心攻击者具有的背景知识，通过添加服从特定分布的噪声达到隐私保护效果，并且可定量分析在保护程度为ε(即隐私预算，本发明也称脱密安全预算)时，数据可用性的大小，为数据安全性与可用性的最佳平衡提供了可能，已成为大数据隐私保护领域的研究热点。

目前，基于差分隐私技术对位置数据的保护问题主要聚焦于独立位置点和轨迹数据的统计分析，对于矢量地理数据的保护研究还尚未见到。由于矢量地理数据的组织方式更复杂并具有严谨的空间关系和拓扑关系，若直接使用现有机制对矢量地理数据进行扰动，会使得敏感度很大，进而使得添加的噪音量较大且有可能超过数据有效的值域，严重影响数据的空间关系，导致可用性很低。因此，有必要设计一种合理有效的脱密方法，能够定量分析脱密模型的安全性和脱密数据的可用性，实现安全性和可用性的均衡，以满足矢量地理数据脱密技术的需求。

发明内容

本发明旨在提出一种基于差分隐私的矢量地理数据脱密处理框架DP-VGS。在该框架中，首先，提出一种基于地理敏感信息量的空间划分聚合方法(Split and Combine，简称SC)，对区域的敏感性进行划分，进而分配ε(隐私预算，在本发明中称作脱密安全预算)，使得敏感性高的区域，分配的ε较小，达到保护程度较高的目的；其次，针对直接对位置点进行保护导致无法维持数据空间关系的问题，设计一种对脱密模型的扰动方法(The FunctionPerturbation Method Based on Truncated Laplace，简称FM-TL)，该方法结合函数扰动的思想和TrunLap机制(Truncated Laplace Mechanism，简称TrunLap)，能够保证脱密后的数据在有效的范围内且保持脱密前后数据的空间关系；最后，对所有区域数据重构，得到脱密后的矢量地理数据。理论证明DP-VGS模型满足差分隐私，即给定脱密安全预算ε，能够确定脱密模型的安全性并得到误差上界，实现安全性和可用性的均衡。

DP-VGS框架主要包括四个部分：区域敏感性划分、分配脱密安全预算、数据脱密和数据重构。在矢量地理数据脱密处理过程中，由于实际地理数据不同区域的敏感性不同，并不是所有区域均需要相同的保护程度。因此，为了达到敏感性高的区域保护程度较高的目的，首先将数据空间均匀网格划分并计算网格的敏感信息量。然而，若直接对每个网格进行加噪，则会导致ε分配次数过多，每个网格添加的噪音很大，此外，会存在大量网格敏感信息量近似的情况。基于此，在DP-VGS框架中，首先提出空间划分聚合方法SC，对矢量地理数据进行区域敏感性划分。其次，使用线性权重法构建区域敏感信息量和脱密安全预算ε的相关关系，使得敏感性高的区域所分配的ε较小，脱密后安全性更高。然后，对于每个区域和该区域分配的ε，若直接将现有机制应用到矢量地理数据的位置点脱密处理，则会引入较多的噪声，极大的影响数据脱密前后的空间关系，进而影响数据的可用性，所以结合函数扰动思想和TrunLap机制，提出FM-TL方法对该区域的脱密模型进行差分隐私保护。最后，将满足差分隐私的区域数据进行重构，得到脱密后的矢量地理数据。

本发明提供的基于差分隐私的矢量地理数据脱密处理框架DP-VGS，具体实现步骤为：

步骤1，使用基于地理敏感信息量的空间划分聚合方法对矢量地理数据D进行区域敏感性划分；

步骤2.给定脱密安全预算ε，使用线性权重法构建区域敏感信息量和ε的相关关系；

步骤3.使用FM-TL方法对每个区域进行数据脱密；

步骤3.1.对于每个区域，构建原始脱密模型；

步骤3.2.结合斯通-魏尔斯特拉斯定理和泰勒展开原理，对原始脱密模型进行多项式展开为多项式脱密模型；

步骤3.3.计算多项式脱密模型的敏感度；

步骤3.4.根据多项式脱密模型的敏感度和该区域分配的ε，对多项式的系数添加TrunLap噪音，得到满足差分隐私保护的脱密模型，进而对该区域数据进行脱密；

步骤4.对脱密后的区域数据进行重构，得到脱密后的矢量地理数据。

进一步的，步骤1的实现方式如下：

步骤1.1.对D的数据空间进行均匀网格化，并计算每个网格的敏感信息量；

首先，在矢量地理数据集D的空间值域范围内，均匀划分为g个网格，并根据网格内的数据计算每一个网格的敏感信息量h_i(i∈[1,g])，其计算公式如公式(1)所示：

h_i＝0.331h(LSens)+0.331h(ASens) (1)

其中，i表示网格的索引，h(LSens)代表敏感位置LSens的信息量，是承载敏感地理要素具体位置的信息量，与地理对象和敏感用途关联度U(U∈{0,0.5,1})、地理对象的使用状态T(T∈{0,0.8,1})等因素相关；h(ASens)代表敏感属性ASens的信息量，是承载地图敏感属性类别的信息量。

步骤1.2.将网格的敏感信息量划分为s个等级，对处于同一等级敏感性的网格进行合并，最终得到s个区域{S₁,S₂,...,S_s}，并通过计算每个区域所包含网格的敏感信息量的加和平均值作为区域的敏感信息量{H₁,H₂,...,H_s}。

进一步的，步骤2的实现方式如下：

通过线性权重法构建区域敏感性与ε的相关关系，即根据公式(2)每个区域敏感信息量的倒数占比作为权重进而分配ε。

其中，ε_j代表第j个区域分配的脱密安全预算，则区域{S₁,S₂,...,S_s}的脱密安全预算分配结果记为{ε₁,ε₂,...,ε_s}。

进一步的，步骤3.1的实现方式如下：

对于第j个区域S_j(j∈[1,s])，选择合适的映射函数，对矢量地理数据D中的经纬数据(x,y)中的x构建原始脱密模型f_j(x)。

对于每个区域，利用现有的方法构建原始脱密模型：对于第j个区域S_j，其中j∈[1,s]，选择合适的映射函数f_j()，对矢量地理数据D中的经纬数据(x,y)构建原始脱密模型f_j(x)和f_j(y)，对于以x坐标构建的原始脱密模型，若使用三角函数作为脱密模型对数据进行脱密，则可将脱密模型简记为公式(3)：

f_j(x)＝a₁x+a₂cos(a₃x+a₄) (3)

其中，参数a₁,a₂,a₃,a₄为脱密模型的系数，令A为脱密模型系数的集合，A＝{a₁,a₂,a₃,a₄}。

进一步的，步骤3.2的实现方式如下：

若原始脱密模型f_j(x)本身为多项式形式，则不做处理；若为其他类型的函数，结合斯通-魏尔斯特拉斯定理和泰勒展开的原理，把连续可微的函数进行k项多项式表示，记为多项式脱密模型f_j ^*(x)，如下公式所示：

其中，ω_i为多项式系数集合且ω_i∈R，若令且/>则模型参数集合A中各元素的乘积组合集合记为/>|A|表示为集合A中元素的个数。

进一步的，步骤3.3的实现方式如下：

对于第j个区域S_j，若其近邻数据集D_j与D_j'对应的原始脱密模型分别为f_j(x)和f_j'(x)，根据步骤3.1和步骤3.2可知，多项式脱密模型分别为f_j ^*(x)和f_j ^*(x')，若给定脱密精度r，则多项式脱密模型f_j ^*(x)的敏感度Δf_jx上界为：

进一步的，步骤3.4的实现方式如下：

首先设计满足差分隐私的TrunLap机制，然后再对步骤3.3得到的多项式脱密模型f_j ^*(x)的系数分别添加服从TrunLap机制的噪音，得到满足差分隐私的脱密模型f_j ^**(x)。

在截断区间为[r_left,r_right]内，由概率的封闭性和差分隐私的概念可知，TrunLap机制的分布表示为如公式(7)所示：

其中，v是随机变量，μ和σ分别表示Laplace分布的位置参数和尺度参数，P_n为归一化系数，取值分别为：P_n＝1/(1-P_left-P_right)，

对公式(3)多项式脱密模型f_j ^*(x)的系数添加服从TrunLap机制的噪音，如下所示：

其中，ω_i ^*和φ(a)^*表示经过TrunLap机制加噪后的多项式脱密模型f_j ^*(x)系数。

因此，关于x坐标满足差分隐私的脱密模型f_j ^**(x)如公式(8)所示。

同理可得，关于y坐标满足差分隐私得脱密模型f_j ^**(y)如公式(9)所示。

最后，使用得到满足差分隐私的脱密模型f_j ^**(x)与f_j ^**(y)，对区域S_j的数据进行脱密。对于第j个区域S_j(j∈[1,s])，使用公式(8)和公式(9)对该区域内的数据D_j进行脱密处理。对于s个区域{S₁,S₂,...,S_s}均使用以上方法对区域内的数据脱密。

进一步的，步骤4的实现方式如下：

按照步骤3，将脱密后的数据区域{S₁ ^*,S₂ ^*,...,S_s ^*}进行重构，即将脱密后的区域数据按照原始区域{S₁,S₂,...,S_s}对应的空间范围进行联接，得到脱密后的地理数据D^*。

第二方面，本发明还提供一种基于差分隐私的矢量地理数据脱密处理系统，包括如下模块：

区域划分模块，用于使用基于地理敏感信息量的空间划分聚合方法对矢量地理数据D进行区域敏感性划分；

相关关系构建模块，用于给定脱密安全预算ε，使用线性权重法构建区域敏感信息量和ε的相关关系；

数据脱密模块，用于使用对脱密模型的扰动方法FM-TL对每个区域进行数据脱密，包括以下子模块；

原始脱密模型构建子模块，用于对于每个区域，构建原始脱密模型；

多项式脱密模型构建子模块，用于结合斯通-魏尔斯特拉斯定理和泰勒展开原理，对原始脱密模型进行多项式展开为多项式脱密模型；

敏感度计算子模块，用于计算多项式脱密模型的敏感度；

差分隐私保护的脱密模型构建子模块，用于根据多项式脱密模型的敏感度和该区域分配的ε，对多项式的系数添加TrunLap噪音，得到满足差分隐私保护的脱密模型，进而对该区域数据进行脱密；

重构模块，用于对脱密后的区域数据进行重构，得到脱密后的矢量地理数据。

与现有矢量地理数据的脱密技术相比，本发明的优点如下：本发明提出基于差分隐私的矢量地理数据脱密处理框架综合考虑了矢量地理数据脱密保护的技术需求，实现了定量分析脱密数据的安全性和可用性的目标。同时，该框架与现有大部分脱密模型兼容，能够确保数据脱密后的量化性的安全和可用，促进了矢量地理数据的共享。

附图说明

图1是本发明实施矢量地理数据脱密处理框架方法的总体示意图。

图2是本发明实施例的对比实验结果图。

具体实施方式

为了使得本发明的技术方案、优点以及目的更加清晰，下边结合附图对本发明实施方式进一步详细描述。由于本发明是在促进矢量地理数据共享的问题场景下，对数据脱密技术的研究，因此，以下步骤均是在可信的服务器端执行，可信的服务器可以知道真实数据的所有信息(包括经纬坐标，属性等)。

如图1所示，本发明提供一种基于差分隐私的矢量地理数据脱密处理方法，包括如下步骤：

步骤1，使用基于地理敏感信息量的空间划分聚合方法即SC方法(Split andCombine)对矢量地理数据D进行区域敏感性划分。

步骤1.1，均匀网格划分；首先，获得矢量地理数据集D(泛指所有矢量地理数据集，矢量数据集的形式包括：数据ID，数据形式，经纬坐标，位置点的名称，所属市/省，使用状态等等)的值域空间，并将值域空间均匀划分为g个网格，进而计算每一个网格的敏感信息量h_i，其计算公式如公式(1)所示：

h_i＝0.331h(LSens)+0.331h(ASens) (1)

其中，i表示网格的索引，i的取值范围为[1,g]，h(LSens)代表敏感位置LSens的信息量，是承载敏感地理要素具体位置的信息量，与地理对象和敏感用途关联度U(U∈{0,0.5,1})、地理对象的使用状态T(T∈{0,0.8,1})等因素相关；h(ASens)代表敏感属性ASens的信息量，是承载地图敏感属性类别的信息量。

步骤1.2，区域聚合；将网格的敏感信息量均匀离散化划分为s个等级，对处于同一等级敏感性的网格进行聚合，最终得到s个区域{S₁,S₂,...,S_s}，并通过计算每个区域所包含网格的敏感信息量的加和平均值作为区域的敏感信息量{H₁,H₂,...,H_s}。

本实施例中通过实验误差最小化得到s的最优取值。

举例：将数据集D均匀划分9个网格，g＝9，根据公式(1)计算每个网格的信息量，得到h₁＝0.1,h₂＝0,h₃＝0.9,h₄＝1.2,h₅＝1.5,h₆＝0.4,h₇＝2,h₈＝0.5,h₉＝1.1，进而可知网格信息量的范围是[0,2]，当区域聚合个数s＝2时，[0,2]离散化为2段区间[0,1]和[1,2],将不同网格根据其信息量h_i归为对应区间，h₁,h₂,h₃,h₆,h₈∈[0,1]，h₄,h₅,h₇,h₉∈[1,2]，则第1,2,3,6,8个网格聚合为区域S₁，其余聚合为区域S₂。S₁和S₂的敏感信息量分别为H₁＝(h₁+h₂+h₃+h₆+h₈)/5＝0.38,H₂＝(h₄+h₅+h₇+h₉)/4＝＝1.45。

分别通过实验测试区域聚合个数s＝1,2,3,...,9时方法的误差，得到最小误差时最优的s。

步骤2，给定脱密安全预算ε，使用线性权重法构建区域敏感信息量和ε的相关关系；

构建区域敏感性{H₁,H₂,...,H_s}与ε的相关关系，使得敏感性高的区域所分配的脱密安全预算越小，因此，可达到的保护程度越高。即根据公式(2)每个区域敏感信息量的倒数占比作为权重进而分配ε。

步骤3，使用FM-TL方法(The Function Perturbation Method Based onTruncated Laplace)对每个区域进行数据脱密；

步骤3.1，对于每个区域，根据现有方法(如：三角函数，多项式，椭球面等)构建原始脱密模型。对于第j个区域S_j，其中j∈[1,s]，选择合适的映射函数f_j()，对矢量地理数据D中的经纬数据(x,y)构建原始脱密模型f_j(x)和f_j(y)。以x坐标构建原始脱密模型为例，若使用三角函数作为脱密模型对数据进行脱密，则可将脱密模型简记为公式(3)。

f_j(x)＝a₁x+a₂cos(a₃x+a₄) (3)

步骤3.2，结合斯通-魏尔斯特拉斯定理和泰勒展开原理，对原始脱密模型进行多项式展开。

若原始脱密模型f_j(x)本身为多项式形式，则不做处理；若脱密模型f_j(x)其他类型的函数，结合斯通-魏尔斯特拉斯定理和泰勒展开的原理，把连续可微的函数进行k项多项式表示，记为多项式脱密模型f_j ^*(x)。以x坐标的原始脱密模型f_j(x)为例，其多项式脱密模型f_j ^*(x)，如下公式所示：

其中，k为多项式的项数，ω_i代表多项式展开的系数且i∈[1,k]，若令且/>|A|为集合A中元素的个数，则模型参数集合A中各元素的乘积组合集合记为/>例如，将公式(3)的脱密函数进行k为2的多项式展开，如公式(5)所示：

其中，ω_i∈{ω₁,ω₂}；x^t∈{x⁰,x¹,x²}。

步骤3.3，计算多项式脱密模型的敏感度。

第j个区域S_j，以及该区域的近邻数据集D_j与D_j'，以x坐标的原始脱密模型f_j(x)为例，若其对应的原始脱密模型分别记为f_j(x)和f_j(x')，根据步骤3.1和步骤3.2可知，对应的多项式脱密模型分别为f_j ^*(x)和f_j ^*(x')，若给定脱密精度为r，则多项式脱密模型的敏感度Δf_jx上界为：

其中，

步骤3.4，根据多项式脱密模型的敏感度Δf_jx和该区域分配的ε_j，该步骤使用满足差分隐私的TrunLap机制对多项式脱密模型的系数添加噪音，得到满足差分隐私保护的脱密模型，进而使用该模型对该区域的数据进行脱密。

首先，在截断区间为[r_left,r_right]内，其中，r_left是范围下限；r_right是范围上限；由概率的封闭性和差分隐私的概念可知，满足差分隐私的TrunLap机制如公式(7)所示。

其中，v是随机变量，P_n为归一化系数，取值分别为：P_n＝1/(1-P_left-P_right)，μ和σ分别表示Laplace分布的位置参数和尺度参数且μ＝0，σ＝2Δf_jx/ε_j，Δf_jx是指在区域S_j中x坐标的脱密模型多项式展开形式f_j ^*(x)的函数敏感度上界，ε_j是该区域分配的脱密安全预算，由步骤3.3的公式(6)可知，

然后，使用满足差分隐私的TrunLap机制对公式(4)的系数添加噪音，如下所示：

其中，ω_i ^*和φ(a)^*表示经过TrunLap机制加噪后的多项式系数。

因此，由步骤3.1至3.4的分析可知，关于x坐标满足差分隐私的脱密模型f_j ^**(x)如公式(8)所示。同理可得，关于y坐标满足差分隐私得脱密模型f_j ^**(y)如公式(9)所示。最后，使用得到满足差分隐私的脱密模型f_j ^**(x)与f_j ^**(y)，对区域S_j的数据进行脱密。此外，对于区域{S₁,S₂,...,S_s}，均使用步骤3的FM-TL方法对每个区域的数据进行脱密。

步骤4，对脱密后的区域数据进行重构，得到脱密后的矢量地理数据。

按照步骤3，将s个满足ε₁,ε₂,...,ε_s差分隐私的区域{S₁ ^*,S₂ ^*,...,S_s ^*}进行重构，即将脱密后的区域数据按照原始区域{S₁,S₂,...,S_s}对应的空间范围进行联接，得到脱密后的地理数据D^*。

步骤1至4是本发明的主要实施方法，由于本发明的主要内容是设计一种合理有效的脱密方法DP-VGS，能够定量分析脱密模型的安全性和脱密数据的可用性。因此，接下来将对步骤3中的FM-TL方法和步骤1至4整体框架DP-VGS的安全性和可用性进行量化分析。其中，方法的安全性主要是根据ε-差分隐私概念和性质进行证明，可用性主要是根据脱密前后数据的误差进行度量。

安全性分析：首先，根据差分隐私的定义和性质，证明步骤3的FM-TL方法满足ε_j-差分隐私，进而证明整体DP-VGS框架满足ε-差分隐私。

首先，差分隐私的定义是：给定一个随机算法方法M，若在数据集D与D'上任意输出结果的概率满足以下不等式，则M满足ε-差分隐私。

Pr[M(D)＝O]≤Pr[M(D')＝O]×e^ε (10)

其中，D与D'互为相差一条数据的近邻数据集，Pr[M(D)＝O]和Pr[M(D')＝O]分别表示方法M作用在D和D'上的输出结果为O的概率，ε为脱密安全预算，该参数取值越小，方法M的安全性越高，共享数据的安全性越高。

差分隐私的性质有：并行组合性质、串行组合性质和后置处理性质，其中，并行组合性质为：将数据集D划分为互不相交的K个子集，D＝{D₁,D₂,...,D_K}，若存在K个分别满足ε₁,ε₂,...,ε_K差分隐私的算法M₁,M₂,...,M_K，则算法分别作用在{D₁,D₂,...,D_K}上的输出结果满足max{ε_i|i∈[1,K]}-差分隐私；串行组合性质为：若存在K个分别满足ε₁,ε₂,...,ε_K差分隐私的算法M₁,M₂,...,M_K，则{M₁,M₂,...,M_K}在数据集D上的序列组合满足ε-差分隐私，后置处理性质为：给定任意一个满足ε-差分隐私的算法M₁,对于任意算法M₂(M₂不一定是满足差分隐私的算法),则有M₂(M₁(D))满足ε-差分隐私。实现差分隐私的主要方式是通过添加与ε相关的噪声机制。

然后，对于第j个区域S_j，以及该区域内x和y坐标的脱密模型f_j(x)和f_j(y)，给定脱密安全预算ε_j以及截断区间[r_left,r_right]，证明FM-TL方法满足ε_j-差分隐私。首先，将x坐标的脱密模型f_j(x)多项式展开为f_j ^*(x)，其次，根据差分隐私的定义和TrunLap机制可知，x坐标的脱密模型满足ε_j/2-差分隐私，如公式(11)所示。同理可得，x坐标的脱密模型满足ε_j/2-差分隐私。由差分隐私的组合性质可知，对区域S_j内x和y坐标的脱密模型保护的方法FM-TL满足ε_j-差分隐私。

最后，对于第j个区域S_j，若FM-TL方法满足ε_j-差分隐私，则DP-VGS框架满足ε-差分隐私。主要原因是根据差分隐私的并行组合性质可知，若S_j满足ε_j-差分隐私且j∈[1,s]，则脱密后的矢量地理数据集D^*满足max{ε_j}-差分隐私。由于每个区域按照公式(2)线性权重法作为分配ε的方式，所以max{ε_j}<ε，即DP-VGS框架满足ε-差分隐私。

可用性分析：首先，证明步骤3FM-TL方法的误差，进而证明DP-VGS框架的误差。首

先，对于第j个区域S_j，以及该区域内x和y坐标的脱密模型函数f_j(x)和f_j(y)，给定脱密安全预算ε_j，FM-TL方法的误差上界为证明过程如下：

在截断区间[r_left,r_right]内，满足ε_j-差分隐私的TrunLap机制分布如公式(7)所示，且μ＝0，σ_j≥2Δf_j/ε_j。则FM-TL方法的误差如公式(12)。

其中，Error_j表示第j个区域的脱密误差；|S_j|表示第j个区域包含的数据个数；Error_j(x_i)和Error_j(y_i)分别表示该区域内第i个位置坐标(x,y)的脱密误差。给定脱密精度r，当截断范围为[-r/2,r/2]时，结合TrunLap机制可得误差上界，如公式(13)。

其次，若对于区域S_j，FM-TL方法的误差上界为则DP-VGS框架的误差上界为/>j∈[s]。

上述内容是对本发明的具体实施方式进行描述，为了进一步验证方法的有效性，使用2022年全国路网数据集来度量本文提出的DP-VGS脱密框架的可用性和安全性。该数据集包含207128条线，共3138902个数据点，其经纬度范围分别为x∈[73.927,18.224]，y∈[134.7334,53.422]，初始化网格个数g＝50×50，给定脱密精度r＝10m，选取三角函数、多项式、双线性内插、椭球面四种原始脱密模型进行实验。所需对比的方法如表1所示。

表1实验对比方法

(1)寻找最优聚合区域的个数。固定脱密安全预算ε＝2.5，当区域划分个数s变化时，分析本发明所提出方法DP-VGS_FM-TL的RMSE变化，RMSE值越大，表示脱密后数据偏离真实值的程度越高。由图2(a)可以看出，s＝10时，整体误差最小，即最优区域划分个数s为10。

(2)脱密安全预算ε变化时脱密数据的误差对比。固定s＝10，当ε发生变化时，对比分析本发明提出的方法DP-VGS_FM-TL和直接使用Laplace机制保护脱密模型的方法DP-VGS_FM-L的RMSE。由图2(b)可以看出：随着ε的增加，所有方法的RMSE减小，数据可用性提高，当ε＝2.5时，RMSE最小，数据可用性最高；本发明的DP-VGS_FM-TL方法优于直接应用Laplace机制保护原始脱密模型的DP-VGS_FM-L方法，尤其是在ε较小的情况下(如0.1～1之间)。

(3)其他衡量标准对比。给定脱密精度r＝10m，固定s＝10，ε＝2.5，分别对比分析本发明提出的方法DP-VGS_FM-TL、VGS方法以及VGS_RV方法，在RMSE、图形形态相似性(S)、空间方向一致性(P)、拓扑关系一致性(T)的实验结果。其中，RMSE的值越小代表脱密后的数据偏离真实值的程度越低；S值越大，表明脱密前后数据的形态保持较好；P值越大，表明脱密前后数据的空间方向保持比较好；T值越大，表明脱密前后数据的空间拓扑关系保持比较好。由表(2)可以看出：文提出的方法DP-VGS_FM-TL与原始脱密模型方法VGS相比，DP-VGS_FM-TL的RMSE,S,P,T四种衡量指标的实验结果均与VGS方法近似，但是VGS_RV方法的可用性均低于DP-VGS_FM-TL，表明本文方法能够保持脱密前后数据的空间关系，保证脱密后数据的可用性。

表2其他衡量标准对比

(4)安全性对比。均匀选取20％的数据作为控制点，固定s＝10，r＝10m，分别对比本方法DP-VGS_FM-TL在ε取值为0.5,1.5,2.5时，与VGS方法和VGS_RV方法的抗攻击能力(A-RMSE)以及误差(RMSE)。其中，A-RMSE值越大，说明脱密后的数据抗攻击能力越强，脱密数据的安全性越高。由表3可以看出，使用原始脱密模型VGS方法脱密的A-RMSE最小，即脱密后数据的抗攻击能力最弱，本发明提出的方法DP-VGS_FM-TL与使用随机值保护脱密模型方法VGS_RV的抗攻击能力均高于原始脱密模型。此外，随着脱密安全预算ε的增大，本发明方法DP-VGS_FM-TL的A-RMSE减小且RMSE提高，即抗攻击能力降低，而可用性提高，并且通过调整ε的取值可以达到RMSE低于VGSRV且A-RMSE高于VGSRV，表明通过设置ε的值，可以使得可用性和抗攻击能力均高于随机值保护脱密模型方法。

表3不同方法的抗攻击能力A-RMSE和误差RMSE对比

在本发明的另一实施例中，本发明还提供一种基于差分隐私的矢量地理数据脱密处理系统，包括如下模块：

敏感度计算子模块，用于计算多项式脱密模型的敏感度；

以上内容是结合最佳实施方案对本发明所做的进一步详细说明，不能认定本发明的具体实施只限于这些说明。本领域的技术人员应该理解，在不脱离由所附权利要求书限定的情况下，可以在细节上进行各种修改，都应当视为属于本发明的保护范围。

Claims

1.基于差分隐私的矢量地理数据脱密处理方法，其特征在于，包括以下步骤：

步骤3，使用对脱密模型的扰动方法FM-TL对每个区域进行数据脱密，包括以下子步骤：

步骤3.1，对于每个区域，构建原始脱密模型；

步骤3.2，结合斯通-魏尔斯特拉斯定理和泰勒展开原理，对原始脱密模型进行多项式展开为多项式脱密模型；

步骤3.3，计算多项式脱密模型的敏感度；

步骤3.4，根据多项式脱密模型的敏感度和该区域分配的ε，对多项式的系数添加TrunLap噪音，得到满足差分隐私保护的脱密模型，进而对该区域数据进行脱密；

步骤3.4的实现方式如下：

首先，在截断区间为[r_left,r_right]内，其中，r_left是范围下限；r_right是范围上限；由概率的封闭性和差分隐私的概念可知，满足差分隐私的TrunLap机制如公式(7)所示：

其中，v是随机变量，P_n为归一化系数，取值分别为：P_n＝1/(1-P_left-P_right)，μ和σ分别表示Laplace分布的位置参数和尺度参数且μ＝0，σ＝2Δf_jx/ε_j，Δf_jx是指在区域S_j中x坐标的脱密模型多项式展开形式f_j ^*(x)的函数敏感度上界，ε_j是该区域分配的脱密安全预算，由步骤3.3可知，

然后，使用满足差分隐私的TrunLap机制对多项式脱密模型的系数添加噪音，如下所示：

其中，ω_i ^*和φ(a)^*表示经过TrunLap机制加噪后的多项式系数；

因此，由步骤3.1至3.4的分析可知，关于x坐标满足差分隐私的脱密模型f_j ^**(x)如公式(8)所示；同理可得，关于y坐标满足差分隐私得脱密模型f_j ^**(y)如公式(9)所示；最后，使用得到满足差分隐私的脱密模型f_j ^**(x)与f_j ^**(y)，对区域S_j的数据进行脱密，此外，对于区域{S₁,S₂,...,S_s}，均使用步骤3的FM-TL方法对每个区域的数据进行脱密：

2.如权利要求1所述的基于差分隐私的矢量地理数据脱密处理方法，其特征在于：步骤1的实现方式如下：

步骤1.1，对D的数据空间进行均匀网格化，并计算每个网格的敏感信息量；

首先，在矢量地理数据集D的空间值域范围内，均匀划分为g个网格，并根据网格内的数据计算每一个网格的敏感信息量h_i，其计算公式如公式(1)所示：

h_i＝0.331h(LSens)+0.331h(ASens) (1)

其中，i表示网格的索引，i的取值范围为[1,g]，h(LSens)代表敏感位置LSens的信息量，是承载敏感地理要素具体位置的信息量；h(ASens)代表敏感属性ASens的信息量，是承载地图敏感属性类别的信息量；

步骤1.2，将网格的敏感信息量均匀离散化划分为s个等级，对处于同一等级敏感性的网格进行聚合，最终得到s个区域{S₁,S₂,...,S_s}，并通过计算每个区域所包含网格的敏感信息量的加和平均值作为区域的敏感信息量{H₁,H₂,...,H_s}。

3.如权利要求1所述的基于差分隐私的矢量地理数据脱密处理方法，其特征在于：步骤2的实现方式如下：

使用线性权重法构建区域敏感性与ε的相关关系，即根据公式(2)每个区域敏感信息量的倒数占比作为权重进而分配ε；

4.如权利要求1所述的基于差分隐私的矢量地理数据脱密处理方法，其特征在于：步骤3.1的实现方式如下：

f_j(x)＝a₁x+a₂cos(a₃x+a₄) (3)

5.如权利要求4所述的基于差分隐私的矢量地理数据脱密处理方法，其特征在于：步骤3.2的实现方式如下：

若原始脱密模型f_j(x)本身为多项式形式，则不做处理；若脱密模型f_j(x)其他类型的函数，结合斯通-魏尔斯特拉斯定理和泰勒展开的原理，把连续可微的函数进行k项多项式表示，记为多项式脱密模型f_j ^*(x)，对于以x坐标的原始脱密模型f_j(x)，其多项式脱密模型f_j ^*(x)，如下公式所示：

其中，k为多项式的项数，ω_i代表多项式展开的系数且i∈[1,k]，若令且/>|A|为集合A中元素的个数，则模型参数集合A中各元素的乘积组合集合记为/>

6.如权利要求5所述的基于差分隐私的矢量地理数据脱密处理方法，其特征在于：步骤3.3的实现方式如下：

第j个区域S_j，以及该区域的近邻数据集D_j与D_j'，对于以x坐标的原始脱密模型f_j(x)，若其对应的原始脱密模型分别记为f_j(x)和f_j(x')，根据步骤3.1和步骤3.2可知，对应的多项式脱密模型分别为f_j ^*(x)和f_j ^*(x')，若给定脱密精度为r，则多项式脱密模型的敏感度Δf_jx上界为：

其中，

7.如权利要求4所述的基于差分隐私的矢量地理数据脱密处理方法，其特征在于：利用三角函数或多项式或椭球面构建原始脱密模型。

8.基于差分隐私的矢量地理数据脱密处理系统，其特征在于，包括如下模块：

敏感度计算子模块，用于计算多项式脱密模型的敏感度；

差分隐私保护的脱密模型构建子模块，用于根据多项式脱密模型的敏感度和该区域分配的ε，对多项式的系数添加TrunLap噪音，得到满足差分隐私保护的脱密模型，进而对该区域数据进行脱密；具体实现方式如下：

其中，v是随机变量，Pn为归一化系数，取值分别为：P_n＝1/(1-P_left-P_right)，μ和σ分别表示Laplace分布的位置参数和尺度参数且μ＝0，σ＝2Δf_jx/ε_j，Δf_jx是指在区域S_j中x坐标的脱密模型多项式展开形式f_j ^*(x)的函数敏感度上界，ε_j是该区域分配的脱密安全预算，由敏感度计算子模块可知，

因此，由各个子模块可知，关于x坐标满足差分隐私的脱密模型f_j ^**(x)如公式(8)所示；同理可得，关于y坐标满足差分隐私得脱密模型f_j ^**(y)如公式(9)所示；最后，使用得到满足差分隐私的脱密模型f_j ^**(x)与f_j ^**(y)，对区域S_j的数据进行脱密，此外，对于区域{S₁,S₂,...,S_s}，均使用FM-TL方法对每个区域的数据进行脱密：