CN113722558A

CN113722558A - 基于自适应数据域划分的保隐私高维数据范围查询方法

Info

Publication number: CN113722558A
Application number: CN202110994794.8A
Authority: CN
Inventors: 程鹏; 杜林康; 孙铭阳; 陈积明
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-08-27
Filing date: 2021-08-27
Publication date: 2021-11-30
Anticipated expiration: 2041-08-27
Also published as: CN113722558B

Abstract

本发明公开了一种基于自适应数据域划分的保隐私高维数据范围查询方法，本发明多组分批收集用户数据，并根据上组用户聚合结果自适应调整数据域划分方式，通过比较子数据域频率估计值和划分阈值的大小，确定是否进一步划分子数据域，相比现有数据域静态划分方式更加灵活。通过设置合理的分段数和划分阈值可以有效降低发布数据的查询误差率，在相同隐私保护程度下，提升聚合结果精度。将待收集属性两两组合分别进行频率分布估计，并采用最大熵优化由二维频率估计结果计算高维范围查询结果，相比于直接处理高维数据域，进一步提高聚合结果精度并大大降低计算和存储开销。交互过程利用本地差分隐私技术对用户数据进行扰动处理，保护了用户数据的隐私。

Description

基于自适应数据域划分的保隐私高维数据范围查询方法

技术领域

本发明属于数据隐私保护领域，尤其涉及一种基于自适应数据域划分的保隐私高维数据范围查询方法。

背景技术

随着人们对个人隐私权的重视，数据收集者在采集分析数据过程中需要考虑用户敏感数据的保隐私。利用本地差分隐私技术，用户在本地对自己的真实数据进行扰动后上传，可以达到数据保隐私的目的。对于范围查询任务，现有方法按照数据维度可分为两类。对于低维(1维)数据场景，Wang等^[1]提出基于完整B叉树结构对整个数据域进行多力度层次分解，并通过累加不同粒度频率估计值来回答范围查询；Cormode等^[2]提出应用离散小波变换将每个用户的真实数据转换为Haar小波系数向量后进行扰动，并对系数估计值进行逆变换以获得查询结果。对于高维(≥2维)数据场景，Yang等^[3]提出结合一维、二维的频率估计结果，并利用加权更新方法来完成高维范围查询任务。

然而现有的方法存在以下问题。首先，大多数真实世界数据集的数据域中都存在稀疏区域。例如，50-60岁的人在一个足球俱乐部的成员中所占的比例很小。现有方法根据预定义的数据编码方式收集用户数据，不能利用用户上传数据的聚合结果动态调整数据编码方式，真实结果极有可能被注入的扰动噪声淹没。另外，文献[3]所提出针对高维(≥2维)数据场景的方法融合了一维频率估计结果，在估计过程中破坏了多维数据之间的相关性，在数据相关性强的高维数据中效果较差，不能满足数据精度需求。

[1]Wang T,Ding B,Zhou J,et al.Answering multi-dimensional analyticalqueries under local differential privacy[C]//Proceedings of the 2019International Conference on Management of Data.2019:159-176.

[2]Cormode G,Kulkarni T,Srivastava D.Answering range queries underlocal differential privacy[J].Proceedings of the VLDB Endowment,2019,12(10):1126-1138.

[3]Yang J,Wang T,Li N,et al.Answering multi-dimensional range queriesunder local differential privacy[J].Proceedings of the VLDB Endowment,2020,14(3):378-390.

发明内容

本发明的目的在于针对现有方法在用户侧扰动过程引入过量扰动噪声以及估计过程破坏高维数据相关性等缺陷，提供一种基于本地差分隐私技术的自适应数据域划分完成保隐私高维数据范围查询分析任务的方法。

本发明的目的是通过以下技术方案实现的：一种基于自适应数据域划分的保隐私高维数据范围查询方法，该方法包括以下步骤：

(1)数据收集者设置待收集用户属性集合、二维数据域、初始数据域划分方式、隐私预算，其中用户属性集合中包含至少两个用户属性，将属性两两组合计算属性组合总数，将二维数据域、初始数据域划分方式、隐私预算、属性组合总数发送给每个用户；

(2)用户从1到属性组合总数之间选择一个正整数作为组号，将组号返回数据收集者；

(3)数据收集者随机选择一个用户组，选择一个未进行频率分布估计的二维属性组合发送给该组每个用户；同时，根据划分段数和二维数据域确定子用户组数发送给该组每个用户；

(4)用户从1到子用户组数之间选择一个正整数作为子组号，将子组号返回数据收集者；

(5)数据收集者随机选择一个子用户组，将初始数据域划分方式发送给该组的每个用户；用户根据初始数据域划分方式对二维属性组合数据域进行划分，基于划分方式将具体属性值编码为独热向量，用户基于隐私预算计算出扰动翻转概率，对独热向量中的每一位进行扰动翻转，将扰动后的独热向量发送给数据收集者；数据收集者将收到的独热向量逐位累加，并根据扰动翻转概率计算用户数据在数据域划分方式下的频率分布估计；数据收集者将原始数据域作为根节点，切分得到的子数据域作为叶子节点构建划分树，并将子数据域频率估计值填写到对应的叶子节点；

(6)数据收集者判断是否已经遍历所有的子用户组，如果是，则用户信息收集完毕，执行步骤(8)，否则执行步骤(7)；

(7)数据收集者根据数据域划分方式和对应的频率分布估计，产生新的数据域划分方式，将新的数据域划分方式发送给剩余的某一组用户，循环执行步骤(5)到步骤(7)；

(8)数据收集者获得不同数据域划分方式下的用户数据频率分布估计，并通过非负化处理、加权平均和数据补全，得到多粒度频率分布估计完整划分树；

(9)数据收集者判断是否已经遍历所有的用户组，如果是，则用户信息收集完毕，执行步骤(10)，否则循环执行步骤(3)到步骤(8)对剩余的二维属性组合进行频率分布估计；

(10)数据收集者通过属性一致化处理，得到最终用于回答高维数据范围查询任务的二维多粒度频率分布估计完整划分树集合；

(11)数据收集者收到高维范围查询分析任务后，采用最大熵优化由二维频率估计结果计算高维数据范围查询结果。

进一步地，所述步骤(1)中，所述数据域划分方式采用均匀划分，划分段数B取4。

进一步地，所述步骤(3)中，所述子用户组数c通过公式c＝log_B|D|²计算得到，D²表示二维数据域，B表示划分段数，在设置数据域D²时，需要满足数据域尺寸|D|²为B的整数次幂。

进一步地，所述步骤(5)中，数据收集者将该组用户上传的扰动后的独热向量x′进行逐位累加，计算每个子数据域内的频率估计值

计算公式如下：

其中v表示独热向量中的某一位，count[v]表示该位上x′累加结果，N表示该组的用户总数，p，q为翻转概率。

进一步地，所述步骤(7)具体为：数据收集者将初始数据域划分方式E₀下每个子数据域的频率估计值

与划分阈值θ进行比较；如果子数据域频率估计值大于划分阈值，则对该子数据域沿两个维度继续切分为更小的子数据域，作为切分前子数据域的叶子节点添加到划分树中，否则该子数据域不再进行划分；当E₀下所有子数据域的频率估计值与划分阈值θ完成比较，并完成进一步划分后，得到新的数据域划分方式E₁；数据收集者将新的数据域划分方式E₁发送给剩余的某一组用户，循环执行步骤(5)到步骤(7)。

进一步地，所述划分阈值θ由以下公式计算得到：

其中B为划分段数，

∈为隐私预算，c为子用户组数。

进一步地，所述步骤(8)中，所述非负化处理具体为：频率分布估计

内的频率值应满足频率值之和等于1且频率值大于0，非负化处理首先将频率分布估计

内为负的频率值变为0，之后将偏置δ添加分布估计

内的每个频率值上来保持总和为1，如处理后的分布估计

还存在负值，那么重复上述操作直到分布估计

内最小值为0；

所述加权平均具体为：数据收集者计算划分树中非叶节点n频率估计值与其子节点u频率估计值之和的加权平均值，更新节点n的频率估计值，更新公式如下：

其中

表示更新之后的频率估计值，

由节点n和其子节点u的扰动方差

计算得到；

所述数据补全具体为：从原始数据域D²根节点开始，缺少的节点采用其最邻近的父节点频率估计值的

作为其频率估计值，形成一棵完全的B叉树。

进一步地，所述步骤(10)中，属性一致化处理具体步骤包括：

1)假设对于某一属性a，包含该属性的(m-1)棵完整划分树集合为{T₁，T₂，…，T_m-1}，除根节点外每棵完整划分树有c层节点，设定l∈[1，2，…，c]表示完整划分树第l层，对于正整数k∈[1，B^l/2]，定义

表示完整划分树T_i中第l层落入属性a第k个子数据域范围的节点频率估计结果之和，其中属性a第k个子数据域为

2)待收集用户属性中的每个属性都会被(m-1)棵完整划分树包含，那么同一属性的频率分布估计在不同的完整划分树中应保持一致，即

在不同的完整划分树中应保持一致；采用加权平均的方式对不同完整划分树中的

进行融合，公式如下：

其中f_T(a，l，k)表示加权平均后的结果，λ_i表示权重，公式如下：

其中

表示完整划分树T_i中第l层落入属性a第k个子数据域范围的节点频率估计结果之和的方差；

3)逐个更新完整划分树T_i中第l层落入属性a第k个子数据域范围的节点频率估计结果，以满足

4)对于所有待收集用户属性，在不同的完整划分树T_i中逐层进行属性一致化处理，直到所有属性在所有完整划分树中完成属性一致化。

进一步地，所述步骤(11)中，m维范围查询分析任务q是统计m个数据维度围成的m维立方体内的用户数据频率值；定义m维范围查询分析任务q的相关任务集合为下式：

其中[α_j，β_j]表示属性a_j上的查询范围，

表示查询范围[α_j，β_j]在属性a_j上的补集，∧表示属性的区间组合；对于集合Q(q)中的2^m个m维范围查询，定义f_q为对应的查询结果集合；对于m维查询任务g∈Q(q)，定义f_q(g)为查询任务g的结果；对于待收集属性集合A中任意两个属性a_j和a_k，可以得到关于属性a_j和a_k的相关任务集合，如下式：

定义

为对应的查询结果集合，定义二维查询任务g^(j，k)为查询任务g关于属性a_j和a_k的部分，定义

为查询任务g^(j，k)的结果；求解下式中的优化问题即可得到m维查询任务q的结果：

max-∑_g∈Q(q)f_q(g)·log(f_q(g))

其中-∑_g∈Q(q)f_q(g)·log(f_q(_g))为f_q(g)的最大熵形式，第一个约束条件

限制求解出来的频率估计值f_q(g)非负，第二个约束条件

表示求解出的m维查询结果集合f_q关于任意属性a_j，a_k组合的范围查询结果f_q(g^(j，k))要与二维查询结果

保持一致。

进一步地，所述步骤(11)中，二维查询结果

从属性a_j，a_k的二维完整划分树T中获取，对于任意的二维查询[α_j，β_j]∧[α_k，β_k]，从根节点向叶子节点搜索二维完整划分树T，找到恰好覆盖查询空间[α_j，β_j]∧[α_k，β_k]的最少节点集合，并累加找到的节点频率估计值作为查询结果。

本发明的优点及有益效果是：本发明多组分批收集用户数据，并根据上组用户的聚合结果自适应调整数据域划分方式收集用户数据，通过比较子数据域频率估计值和划分阈值的大小，确定是否进一步划分子数据域，相比现有算法对于数据域静态划分更加灵活。其次，本发明通过设置合理的分段数和划分阈值可以有效降低发布数据的查询误差率，在相同隐私保护程度下，提升了聚合结果的精度。另外，将待收集属性两两组合分别进行频率分布估计，并采用最大熵优化由二维频率估计结果计算高维范围查询结果，相比于直接处理高维数据域，进一步提高聚合结果精度并大大降低计算和存储开销。最后，交互过程利用本地差分隐私技术对用户数据进行扰动处理，保护了用户数据的隐私。

附图说明

图1为本发明方法流程图；

图2为本发明所涉及的保隐私高维数据范围查询方法在模拟数据集上查询精度比较图；

图3为本发明所涉及的保隐私高维数据范围查询方法在真实数据集上查询精度比较图；

图4为本发明所涉及的保隐私高维数据范围查询方法随数据维度增加查询精度变化图；

图5为本发明所涉及的自适应数据域划分算法在不同划分阈值下的查询精度比较图。

具体实施方式

为了更好的理解本申请的技术方案，下面结合附图对本申请实施例进行详细描述。

应当明确，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

图1为本发明一个实施例中的基于自适应数据域划分的保隐私高维数据范围查询方法流程图。本实施例提供的基于自适应数据域划分的保隐私高维数据范围查询方法，该方法包括以下步骤：

第一步，数据收集者设置待收集用户属性集合A(包含m个用户属性，m≥2)、二维数据域D²、初始数据域划分方式E₀、隐私预算∈，将待收集用户属性两两组合计算出属性组合总数

之后，数据收集者将二维数据域D²、初始数据域划分方式E₀、隐私预算∈、属性组合总数

发送给每一个用户。具体实现如下：

1)待收集用户属性指数据收集者需要进行分析的用户隐私数据，例如年龄、收入、储蓄总额、贷款总额等数据。待收集用户属性集合A包含m个用户属性即表示用户数据为m维数据。

2)数据域由待收集用户属性决定，m维数据采用统一的数据域D。数据域D根据m维数据中范围最大的属性确定，例如在年龄、收入、储蓄总额、贷款总额四个属性中，待收集用户储蓄总额属性数据范围最大D＝[1，200]，那么所有属性的数据域均设置为D。此时二维数据域为二维平面D²＝[1，200]×[1，200]，数据域尺寸就是|D|²＝40000。

3)初始数据域划分方式E₀是指对二维数据域进行拆分的方式，例如将二维数据域[1，200]×[1，200]均分为4个子数据域[1，100]×[1，100]、[1，100]×[101，200]、[101，200]×[1，100]和[101，200]×[101，200]就是一种划分方式(下面步骤中，数据域划分如无特殊说明，默认为均匀划分，划分段数为B)；此处最优划分段数B＝4由下列(1)式推导得到。

其中随机变量X和方差σ²刻画扰动翻转对真实数据的影响，|D|²表示数据域尺寸，f为数据域的频率真实值，

表示总扰动误差的期望；(1)式关于B求导数共有两个极值点B＝0.6和B＝2.2。设置的分段数需要保证在两个维度上切分粒度相同以及切分后子数据域形状相同，所以分段数只能取大于1的正整数的2次幂，即2²，3²，4²，…。又因为(1)式在B∈[2.2，∞)单调递增，所以最优划分段数B＝2²。

4)二维属性组合，例如待收集用户属性为年龄、收入、储蓄总额、贷款总额四个属性，年龄和收入便构成一个二维属性组合。

5)隐私预算∈为用户数据隐私保护程度的量度，根据用户数据隐私保护需求事先确定。在相同情况下，隐私预算∈越小表示用户数据的隐私保护程度越强；反之，用户数据的隐私保护程度越弱。

第二步，用户收到数据收集者发送的二维数据域D²、初始数据域划分方式E₀、隐私预算∈、属性组合总数

后，从1到

之间随机选择一个正整数作为自己的组号，并将选择的组号返回给数据收集者。

第三步，数据收集者随机选择一个用户组，选择一个未进行频率分布估计的二维属性组合发送给该组的每个用户。同时，根据划分段数B和二维数据域D²确定子用户组数c，发送给该组的每个用户。具体实现如下：

在进行数据域划分时，为了保证数据域划分的充分性(划分后最小区间为单个数据值)，子用户组数c可通过公式c＝log_B|D|²计算得到。在设置数据域D²时，需要满足数据域尺寸|D|²为B的整数次幂。

第四步，用户收到数据收集者发送的二维属性组合和子用户组数c后，从1到c之间随机选择一个正整数作为自己的子组号，并将选择的子组号返回给数据收集者。

第五步，数据收集者随机选择一个子用户组，并将初始数据域划分方式E₀发送给该组的每个用户，用户根据初始数据域划分方式E₀对二维属性组合数据域D²进行划分，并基于划分方式将具体属性值编码为独热向量x。用户基于隐私预算∈计算出扰动翻转概率

并对独热向量中的每一位进行扰动翻转。之后将扰动后的独热向量x′发送给数据收集者，数据收集者将收到的独热向量x′逐位累加，并根据扰动翻转概率计算用户数据在数据域划分方式E₀下的频率分布估计。其具体步骤如下：

1)用户基于数据域划分方式E₀划分二维属性组合数据域D²。沿每个维度同时进行均匀划分，将数据域D²划分成B个相同大小的子数据域。例如，每个属性的数据域都是D＝[1，200]，二维属性组合数据域划分即是对二维属性组成的二维平面D²＝[1，200]×[1，200]沿两个维度切分为4个边长为100的子数据域[1，100]×[1，100]、[1，100]×[101，200]、[101，200]×[1，100]和[101，200]×[101，200]。

2)用户将自己的真实数据进行独热编码。例如，用户数据是(53，17)，这两个数据组成的空间点处在[1，100]×[1，100]子数据域内，所以该用户数据经过独热编码为x＝(1，0，0，0)。

3)用户对独热编码x进行逐位翻转。用户以p的概率将1翻转为0，以q的概率将0翻转为1，经过翻转后形成向量x′，并将x′发送给数据收集者。

4)数据收集者将该组用户上传的扰动后独热向量进行逐位累加，并使用(2)式计算每一个子数据域内(对应独热编码中的某一位)频率估计值

最终得到在该数据域划分方式E₀下的频率分布估计

其中v表示独热编码中的某一位，count[v]表示该位上x′累加结果，N表示该组的用户总数，p，q为翻转概率。

5)数据收集者将原始数据域D²作为根节点，切分得到的子数据域作为叶子节点构建一棵划分树T，并将子数据域频率估计值填写到对应的叶子节点。

第六步，数据收集者判断是否已经遍历所有的子用户组。如果是，则用户信息收集完毕，执行第八步后向处理；如果否，则执行第七步产生新的数据域划分方式。

第七步，数据收集者根据数据域划分方式E₀和对应的频率分布估计

产生新的数据域划分方式E₁，循环执行第五步到第七步。其具体步骤如下：

1)数据收集者将划分方式E₀下每一个子数据域的频率估计值

与划分阈值θ进行比较。

2)如果子数据域频率估计值大于划分阈值θ，则对该子数据域沿两个维度切分为4个更小的子数据域，作为切分前子数据域的叶子节点添加到划分树T中。如果子数据域频率估计值小于等于划分阈值θ，则该子数据域不再进行划分。

3)划分阈值θ由(3)式得到，其中B为分段数，

4)当E₀下所有子数据域的频率估计值与划分阈值θ完成比较，并完成进一步划分后，得到新的数据域划分方式E₁。

5)数据收集者将新的数据域划分方式E₁发送给剩余的某一组用户，循环执行第五步到第七步。

第八步，数据收集者获得不同数据域划分方式{E₀，E₁，...，E_c-1}下的用户数据频率分布估计

并通过非负化处理、加权平均和数据补全三个步骤，得到最终用于回答范围查询任务的多粒度频率分布估计完整划分树T，其具体步骤如下：

1)非负化处理，频率分布估计

内的频率值应满足两个约束条件：频率值之和等于1且频率值大于0。非负化处理首先将频率分布估计

内为负的频率值变为0，之后将偏置δ添加分布估计

内的每个频率值上来保持总和为1。如处理后的分布估计

还存在负值，那么重复上述操作直到分布估计

内最小值为0(由于计算机计算精度限制，重复上述操作直到分布估计

内最小值与0之差小于计算精度即可结束非负化处理)，经过非负化处理后的分布估计

加(4)式所示：

2)加权平均，数据收集者计算划分树T中非叶节点n频率估计值与其子节点u频率估计值之和的加权平均值，更新节点n的频率估计值。更新过程如(5)式所示：

其中

表示更新之后的频率估计值，

由节点n和其子节点u的扰动方差

计算得到。

3)数据补全，数据收集者将划分树T中的节点补全，形成一棵完全的B叉树。补全过程从原始数据域D²根节点开始，缺少的节点采用其最邻近的父节点频率估计值的

作为其频率估计值。完成后得到完整划分树T。

第九步，数据收集者判断是否已经遍历所有的用户组。如果是，则用户信息收集完毕，执行第十步对

棵完整划分树进行后向处理；如果否，则循环执行第三步到第八步对剩余的二维属性组合进行频率分布估计。

第十步，数据收集者获得

棵完整划分树集合

包含全部二维属性组合的频率分布估计结果。数据收集者通过属性一致化处理，得到最终用于回答高维数据范围查询任务的二维多粒度频率分布估计完整划分树集合

属性一致化处理具体步骤如下：

1)假设对于某一属性a，包含该属性的(m-1)棵完整划分树集合为{T₁，T₂，…，T_m-1}，除根节点外每棵完整划分树有c层节点，设定l∈[1，2，…，c]表示完整划分树第l层(从根节点到叶子节点从小到大计数，除去根节点)。对于正整数k∈[1，B^l/2]，定义

在不同的完整划分树中应保持一致。采用加权平均的方式对不同完整划分树中的

进行融合，计算过程如(6)式所示：

其中f_T(a，l，k)表示加权平均之后的结果，λ_i表示权重由(7)式计算得到：

其中

表示完整划分树T_i中第l层落入属性a第k个子数据域范围的节点频率估计结果之和的方差，每个节点的当前方差根据第八步后向处理以及节点原始扰动方差

计算得到。具体来说，第八步中非负化处理对节点原始扰动方差无影响，加权平均和数据补全后的方差可以由具体的权重和补全过程结合方差的性质得到。

3)接下来逐个更新完整划分树T_i中第l层落入属性a第k个子数据域范围的节点频率估计结果，以满足

具体来说，每个

包含B^l/2个二维子数据域节点，给每个节点的频率估计值加上

即可满足

第十一步，回答范围查询分析任务，采用最大熵优化由二维频率估计结果计算高维范围查询结果。例如，m维范围查询分析任务q是统计m个数据维度[α₁，β₁]，[α₂，β₂]，...，[α_m，β_m]围成的m维立方体内的用户数据频率值。定义上述m维范围查询分析任务q的相关任务集合为(8)式：

其中[α_j，β_j]表示属性a_j上的查询范围，

表示查询范围[α_j，β_j]在属性a_j上的补集，∧表示属性的区间组合。对于集合Q(q)中的2^m个m维范围查询，定义f_q为对应的查询结果集合。对于m维查询任务g∈Q(q)，定义f_q(g)为查询任务g的结果。对于待收集属性集合A中任意两个属性a_j和a_k，可以得到关于属性a_j和a_k的相关任务集合，如(9)式所示：

定义

为查询任务g^(j，k)的结果。接着，求解(10)式中的优化问题即可得到m维查询任务q的结果：

max-∑_g∈Q(q)f_q(g)·log(f_q(g))

其中-∑_g∈Q(q)f_q(g)·log(f_q(g))为f_q(g)的最大熵形式，第一个约束条件

限制求解出来的频率估计值f_q(g)非负，第二个约束条件

保持一致。二维查询结果

从属性a_j，a_k的二维完整划分树T中获取。具体来说，对于任意的二维查询[α_j，β_j]∧[α_k，β_k]，从根节点向叶子节点搜索二维完整划分树T，找到恰好覆盖查询空间[α_j,β_j]∧[α_k,β_k]的最少节点集合，并累加找到的节点频率估计值作为查询结果。

对比以上步骤配以实验分析如下：

为了验证本发明方法的有效性，下面使用真实数据集(Loan,BlackFriday,Salaries)和模拟数据集(Laplacian，Gaussian)进行实验，说明本发明所提方法在提升数据可用性上的良好性能。

实验环境：Intel Xeon Platinum 8269@2.5GHz，32GB内存，Ubuntu操作系统。实验所涉及代码使用Python语言编写。

将本发明提出的基于划分阈值θ的保隐私自适应多粒度频率分布估计算法，与相关领域最新算法(HDG)进行查询精度对比。每组实验设置下随机生成200个范围查询任务，并重复实验20次，统计20次实验查询结果均方误差MSE的平均值、方差以及95％置信区间，将本发明方法记为LLE_AHEAD_B2和LLE_AHEAD_B4，“_B2”和“_B4”表示不同的分段数，其中“_B2”是基于(1)式推导得出的划分数。另外，本发明还对比了直接对高维数据域进行频率估计的方法记作DE_AHEAD_B2和DE_AHEAD_B4。

图2展示本发明算法在真实数据集与同领域最新算法的查询误差对比，图3展示本发明算法在模拟数据集与同领域最新算法的查询误差对比，图4展示本发明算法与同领域最新算法随数据维度增大时查询误差的变化情况。实验表明，相比于同领域最新算法，本发明方法可以有效降低扰动过程对于真实数据可用性的影响，在相同的隐私保护程度下获得更高的查询结果精度。

在不同的数据集、隐私预算、查询维度条件下，如图2、图3和图4所示，分段数B＝2²(LLE_AHEAD_B2)相比于分段数B＝4²(LLE_AHEAD_B4)，均取得更小的查询误差MSE。另外，如图2、图3所示，相比于直接对高维数据域进行频率估计的方法(DE_AHEAD_B2和DE_AHEAD_B4)，本发明提出的采用最大熵优化的方法(LLE_AHEAD_B2和LLE_AHEAD_B4)能够进一步提高聚合结果精度。

在不同的数据集、隐私预算下，本发明方法所提出的划分阈值θ设定方法均能得到较低的查询精度，结果如图5所示，验证了所提出划分阈值θ设定方法对于降低发布数据的误差具有显著的优化效果。

本发明提出的自适应数据域划分的保隐私高维数据范围查询方法，通过比较子数据域频率估计值和划分阈值的大小，确定是否进一步划分子数据域，相比现有算法对于静态数据域均匀划分更加灵活。其次，本发明通过设置合理的分段数B和划分阈值θ可以有效降低发布数据的查询误差率，增加了数据发布的可用性。另外，本发明将待收集属性两两组合分别进行频率分布估计，并采用最大熵优化由二维频率估计结果计算高维范围查询结果，相比于直接处理高维数据域，进一步提高聚合结果精度并大大降低计算和存储开销，适合应用于高维度场景下的保隐私范围查询分析任务。

实施例1

方法执行过程中包含两类角色：数据收集者和用户。

数据收集者一般是需要收集用户数据并对用户数据进行分析的服务提供商，用户是享受数据收集者提供服务的目标群体。数据收集者由于业务需求，计划采集用户敏感信息，例如年龄、收入、行业、家庭人口总数等数据。因为上述数据属于个人隐私数据，数据收集者需要在保证用户数据隐私的前提下进行收集。数据收集者和用户可以利用本发明提出的方法进行数据的交互，用户上传数据前对数据进行扰动处理，保证了用户数据的隐私。数据收集者在完成每个属性组合频率估计后进行非负化、加权平均、数据补全操作，并将属性组合频率估计结果储存成一棵完整多叉树。当完成所有属性组合估计后，数据收集者对所有属性组合的完整多叉树集合进行属性一致化处理，保证同一属性在不同属性组合中具有相同的频率分布估计。接着数据收集者采用最大熵优化的方法，基于二维频率估计结果完成高维范围查询任务。

以上所述仅为本说明书一个或多个实施例的较佳实施例而已，并不用以限制本说明书一个或多个实施例，凡在本说明书一个或多个实施例的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书一个或多个实施例保护的范围之内。