CN113722556B

CN113722556B - 基于自适应数据域划分的保隐私范围查询方法

Info

Publication number: CN113722556B
Application number: CN202110889786.7A
Authority: CN
Inventors: 孙铭阳; 杜林康; 程鹏; 陈积明
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-08-04
Filing date: 2021-08-04
Publication date: 2023-05-02
Anticipated expiration: 2041-08-04
Also published as: CN113722556A

Abstract

本发明公开了一种基于自适应数据域划分的保隐私范围查询方法，本发明多组分批收集用户数据，并根据上组用户的聚合结果自适应调整数据域划分方式收集用户数据，通过比较子数据域频率估计值和划分阈值的大小，确定是否进一步划分子数据域，相比现有算法对于数据域静态划分更加灵活。其次，本发明通过设置合理的分段数和划分阈值可以有效降低发布数据的查询误差率，在相同隐私保护程度下，提升了聚合结果的精度。最后，交互过程利用本地差分隐私技术对用户数据进行扰动处理，保护了用户数据的隐私。

Description

基于自适应数据域划分的保隐私范围查询方法

技术领域

本发明属于数据隐私保护领域，尤其涉及一种基于自适应数据域划分的保隐私范围查询方法。

背景技术

随着人们对个人隐私权的重视，数据收集者在采集分析数据过程中需要考虑用户敏感数据的保隐私。利用本地差分隐私技术，用户在本地对自己的真实数据进行扰动后上传，可以达到数据保隐私的目的。现在方法按照用户数据编码方式的不同可以分为两大类，基于层级结构分解的方法和基于离散小波变换的方法。基于层级结构分解的方法[1,2]将数据域划分为均匀多粒度的子数据域，用户随机选择粒度并将数据按数据域划分进行编码，扰动后上传至数据收集者；基于离散小波变换的方法[3]将数据域转化为离散小波系数，用户随机选择一组离散小波系数将数据进行编码，并将扰动后的离散小波系数上传至数据收集者。

这些方法根据预定义的数据编码方式收集用户数据，不能利用用户上传数据的聚合结果动态调整数据编码方式，导致用户侧数据扰动过程引入了过量的扰动噪声，范围查询分析的结果较差，不能满足数据精度需求。

[1]Wang T,Ding B,Zhou J,et al.Answering multi-dimensional analyticalqueries under local differential privacy[C]//Proceedings of the2019International Conference on Management of Data.2019:159-176.

[2]Yang J,Wang T,Li N,et al.Answering multi-dimensional range queriesunder local differential privacy[J].Proceedings of the VLDB Endowment,2020,14(3):378-390.

[3]Cormode G,Kulkarni T,Srivastava D.Answering range queries underlocal differential privacy[J].Proceedings of the VLDB Endowment,2019,12(10):1126-1138.

发明内容

本发明的目的在于针对现有方法预定义静态数据编码方式以及用户侧扰动过程引入过量扰动噪声等缺陷，提供一种基于本地差分隐私技术的自适应数据域划分完成保隐私范围查询分析任务的方法。

本发明的目的是通过以下技术方案实现的：一种基于自适应数据域划分的保隐私范围查询方法，该方法包括以下步骤：

(1)数据收集者设置待收集用户属性集合、数据域、数据域划分方式、隐私预算，计算总用户组数，将待收集用户属性集合、数据域、隐私预算和总用户组数发送给每个用户；

(2)用户随机选择一个用户组，并将组号返回给数据收集者；

(3)数据收集者随机选择一个用户组，将初始数据域划分方式发送给该组的每个用户；用户根据初始数据域划分方式对用户属性的数据域进行划分，基于划分方式将具体属性值编码为独热向量，用户基于隐私预算计算出扰动翻转概率，对独热向量中的每一位进行扰动翻转，将扰动后的独热向量发送给数据收集者；数据收集者将收到的独热向量逐位累加，并根据扰动翻转概率计算用户数据在初始数据域划分方式下的频率分布估计；数据收集者将原始数据域作为根节点，切分得到的子数据域作为叶子节点构建划分树，并将子数据域频率估计值填写到对应的叶子节点；

(4)数据收集者判断是否已经遍历所有的用户组，如果是，则用户信息收集完毕，执行步骤(6)，否则执行步骤(5)；

(5)数据收集者根据数据域划分方式和对应的频率分布估计，产生新的数据域划分方式，将新的数据域划分方式发送给剩余的某一组用户，循环执行步骤(3)到步骤(5)；

(6)数据收集者获得不同数据域划分方式下的用户数据频率分布估计，并通过非负化处理、加权平均和数据补全，得到最终用于回答范围查询任务的多粒度频率分布估计完整划分树；

(7)数据收集者收到范围查询分析任务后，从完整划分树根节点向叶子节点搜索，找到恰好覆盖查询空间的最少节点集合，并累加找到的节点频率估计值作为查询结果。

进一步地，所述步骤(1)中，所述数据域划分方式采用均匀划分，划分段数B取2。

进一步地，所述步骤(1)中，所述总用户组数c通过公式c＝log_B|D|计算得到，D表示数据域，B表示划分段数，在设置数据域D时，需要满足数据域尺寸|D|为B的整数次幂。

进一步地，所述步骤(3)中，用户基于初始数据域划分方式E₀划分属性数据域D，对于m维属性，沿每个维度同时进行均匀划分，将数据域D划分成B^m个相同大小的子数据域，B表示划分段数。

进一步地，所述步骤(3)中，数据收集者将该组用户上传的扰动后的独热向量x′进行逐位累加，计算每个子数据域内的频率估计值

计算公式如下：

其中v表示独热向量中的某一位，count[v]表示该位上x′累加结果，N表示该组的用户总数，p,q为翻转概率。

进一步地，所述步骤(5)具体为：数据收集者将初始数据域划分方式E₀下每个子数据域的频率估计值

与划分阈值θ进行比较；如果子数据域频率估计值大于划分阈值θ，则对该子数据域沿m个维度继续切分为更小的子数据域，作为切分前子数据域的叶子节点添加到划分树中，否则该子数据域不再进行划分；当E₀下所有子数据域的频率估计值与划分阈值θ完成比较，并完成进一步划分后，得到新的数据域划分方式E₁；数据收集者将新的数据域划分方式E₁发送给剩余的某一组用户，执行步骤(3)。

进一步地，所述划分阈值θ由以下公式计算得到：

其中B为划分段数，

∈为隐私预算，c为总用户组数。

进一步地，所述步骤(6)中，所述非负化处理具体为：频率分布估计

内的频率值应满足频率值之和等于1且频率值大于0，非负化处理首先将频率分布估计

内为负的频率值变为0，之后将偏置δ添加分布估计

内的每个频率值上来保持总和为1，如处理后的分布估计

还存在负值，那么重复上述操作直到分布估计

内最小值为0。

进一步地，所述步骤(6)中，所述加权平均具体为：数据收集者计算划分树中非叶节点n频率估计值与其子节点u频率估计值之和的加权平均值，更新节点n的频率估计值，更新公式如下：

其中

表示更新之后的频率估计值，

由节点n和其子节点u的扰动方差

计算得到。

进一步地，所述步骤(6)中，所述数据补全具体为：从原始数据域根节点开始，缺少的节点采用其最邻近的父节点频率估计值的

作为其频率估计值，形成一棵完全的B^m叉树，m为属性维度。

本发明的优点及有益效果是：本发明多组分批收集用户数据，并根据上组用户的聚合结果自适应调整数据域划分方式收集用户数据，通过比较子数据域频率估计值和划分阈值的大小，确定是否进一步划分子数据域，相比现有算法对于数据域静态划分更加灵活。其次，本发明通过设置合理的分段数和划分阈值可以有效降低发布数据的查询误差率，在相同隐私保护程度下，提升了聚合结果的精度。最后，交互过程利用本地差分隐私技术对用户数据进行扰动处理，保护了用户数据的隐私。

附图说明

图1为本发明方法流程图；

图2为本发明所涉及的自适应数据域划分算法的一维场景下的查询精度比较图；

图3为本发明所涉及的自适应数据域划分算法的二维场景下的查询精度比较图；

图4为本发明所涉及的自适应数据域划分算法在不同划分阈值下的查询精度比较图。

具体实施方式

为了更好的理解本申请的技术方案，下面结合附图对本申请实施例进行详细描述。

应当明确，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

图1为本发明一个实施例中的基于自适应数据域划分的保隐私范围查询方法流程图。本实施例提供的基于自适应数据域划分的保隐私范围查询方法，该方法包括以下步骤：

第一步，数据收集者设置待收集用户属性集合A、数据域D、数据域划分方式W、隐私预算∈，并计算出总用户组数c。之后，数据收集者将待收集用户属性集合A、数据域D、隐私预算∈和总用户组数c发送给每一个用户。具体实现如下：

1)待收集用户属性指数据收集者需要进行分析的用户隐私数据，例如年龄、收入、储蓄总额、贷款总额等数据。

2)数据域由具体属性决定，例如人的年龄一般是处于1到200岁之间，那么年龄的数据域就是D＝[1,200，数据域尺寸就是|D|＝200。

3)数据域划分方式E是指对数据域进行拆分的方式，例如将数据域[0,200均分为2段[1,100和[101,200就是一种划分方式(下面步骤中，数据域划分如无特殊说明，默认为均匀划分，划分段数为B)；此处最优划分段数B＝2由下列(1)式推导得到。

其中随机变量X和方差σ²刻画扰动翻转对真实数据的影响，||表示数据域尺寸，f为数据域的频率真实值，

表示总扰动误差的期望；(1)式关于B求导数共有两个极值点B＝0.6和B＝2.2。分段数B是大于1的正整数且B＝2时(1)式的值小于B＝3，所以最优划分段数B＝2。

4)隐私预算∈为用户数据隐私保护程度的量度，根据用户数据隐私保护需求事先确定。在相同情况下，隐私预算∈越小表示用户数据的隐私保护程度越强；反之，用户数据的隐私保护程度越弱。

5)在进行数据域划分时，为了保证数据域划分的充分性(划分后最小区间为单个数据值)，总用户组数c可通过公式c＝log_B|D|计算得到。在设置数据域D时，需要满足数据域尺寸|D|为B的整数次幂。

第二步，用户收到数据收集者发送的待收集用户属性集合A、数据域D、隐私预算∈和总用户组数c后，从1到c之间随机选择一个正整数作为自己的组号，并将选择的组号返回给数据收集者。

第三步，数据收集者随机选择一个用户组，并将初始数据域划分方式E₀发送给该组的每个用户，用户根据初始数据域划分方式E₀对集合A中的用户属性的数据域D进行划分，并基于划分方式将具体属性值编码为独热向量x。用户基于隐私预算∈计算出扰动翻转概率

并对独热向量中的每一位进行扰动翻转。之后将扰动后的独热向量x′发送给数据收集者，数据收集者将收到的独热向量x′逐位累加，并根据扰动翻转概率计算用户数据在数据域划分方式E₀下的频率分布估计。其具体步骤如下：

1)用户基于数据域划分方式E₀划分属性数据域D。对于m维属性，沿每个维度同时进行均匀划分，将数据域D划分成B^m个相同大小的子数据域。例如，用户属性集合A具有3个属性，每个属性的数据域都是D＝[0,127]，数据域划分即是对3个属性组成的三维空间D³＝[0,127×[0,127×[0,127沿三个维度切分为8个边长为64的子数据域。

2)用户将自己的真实数据进行独热编码。例如，用户数据是(0,17,21，这三个数据组成的空间点处在[0,63×[0,63×[0,63子数据域内，所以该用户数据经过独热编码为x＝(1,0,0,0,0,0,0,0。

3)用户对独热编码x进行逐位翻转。用户以p的概率将1翻转为0，以q的概率将0翻转为1，经过翻转后形成向量x′，并将x′发送给数据收集者。

4)数据收集者将该组用户上传的扰动后独热向量进行逐位累加，并使用(2)式计算每一个子数据域内(对应独热编码中的某一位)频率估计值

最终得到在该数据域划分方式E₀下的频率分布估计

其中v表示独热编码中的某一位，count[v]表示该位上x′累加结果，N表示该组的用户总数，p,q为翻转概率。

5)数据收集者将原始数据域D³作为根节点，切分得到的子数据域作为叶子节点构建一棵划分树T，并将子数据域频率估计值填写到对应的叶子节点。

第四步，数据收集者判断是否已经遍历所有的用户组。如果是，则用户信息收集完毕，执行第六步后向处理；如果否，则执行第五步产生新的数据域划分方式。

第五步，数据收集者根据数据域划分方式E₀和对应的频率分布估计

产生新的数据域划分方式E₁，并执行第三步。其具体步骤如下：

1)数据收集者将划分方式E₀下每一个子数据域的频率估计值

与划分阈值θ进行比较。

2)如果子数据域频率估计值大于划分阈值θ，则对该子数据域沿三个维度切分为8个更小的子数据域，作为切分前子数据域的叶子节点添加到划分树T中。如果子数据域频率估计值小于等于划分阈值θ，则该子数据域不再进行划分。

3)划分阈值θ由(3)式得到，其中B为分段数，

4)当E₀下所有子数据域的频率估计值与划分阈值θ完成比较，并完成进一步划分后，得到新的数据域划分方式E₁。

5)数据收集者将新的数据域划分方式E₁发送给剩余的某一组用户，循环执行第三步到第五步。

第六步，数据收集者获得不同数据域划分方式{E₀,E₁,...,E_c-1}下的用户数据频率分布估计

并通过非负化处理、加权平均和数据补全三个步骤，得到最终用于回答范围查询任务的多粒度频率分布估计完整划分树T，其具体步骤如下：

1)非负化处理，频率分布估计

内的频率值应满足两个约束条件：频率值之和等于1且频率值大于0。非负化处理首先将频率分布估计

内为负的频率值变为0，之后将偏置δ添加分布估计

内的每个频率值上来保持总和为1。如处理后的分布估计

还存在负值，那么重复上述操作直到分布估计

内最小值为0(由于计算机计算精度限制，重复上述操作直到分布估计

内最小值与0之差小于计算精度即可结束非负化处理)，经过非负化处理后的分布估计

如(4)式所示：

2)加权平均，数据收集者计算划分树T中非叶节点n频率估计值与其子节点u频率估计值之和的加权平均值，更新节点n的频率估计值。更新过程如(5)式所示：

其中

表示更新之后的频率估计值，

由节点n和其子节点u的扰动方差

计算得到。

3)数据补全，数据收集者将划分树T中的节点补全，形成一棵完全的B³叉树。补全过程从原始数据域D³根节点开始，缺少的节点采用其最邻近的父节点频率估计值的

作为其频率估计值。完成后得到完整划分树T。

第七步，回答范围查询分析任务。例如，单维范围查询分析任务是统计某一个数据维度[a,b]范围内的用户数据频率值，多维范围查询分析任务是统计某几个数据维度[a₁,b₁],[a₂,b₂],...,[a_m,b_m]围成的高维立方体内的用户数据频率值。数据收集者在收到范围查询分析任务后，从完整划分树T根节点向叶子节点搜索，找到恰好覆盖查询空间的最少节点集合，并累加找到的节点频率估计值作为查询结果。

对比以上步骤配以实验分析如下：

为了验证本发明方法的有效性，下面使用真实数据集(Loan,Financial,BlackFriday,Salaries)和模拟数据集(Laplacian，Gaussian)进行实验，说明本发明所提方法在提升数据可用性上的良好性能。

实验环境：Intel Xeon Platinum 8269@2.5GHz，32GB内存，Ubuntu操作系统。实验所涉及代码使用Python语言编写。

将本发明提出的基于划分阈值θ的保隐私自适应多粒度频率分布估计算法，与相关领域最新算法(Uni,CALM,HIO,DHT，HDG)进行查询精度对比。每组实验设置下随机生成200个范围查询任务，并重复实验20次，统计20次实验查询结果均方误差MSE的平均值、方差以及95％置信区间，将本发明方法记为AHEAD，结果如图2和图3所示，实验表明，相比于同领域最新算法，本发明方法可以有效降低扰动过程对于真实数据可用性的影响，在相同的隐私保护程度下获得更高的查询结果精度。

在不同的数据集、隐私预算、查询维度条件下，如图2和图3所示，分段数B＝2(AHEAD_B2)相比于分段数B＝4(AEHAD_B4)，均取得更小的查询误差MSE。

在不同的数据集、隐私预算下，本发明方法所提出的划分阈值θ设定方法均能得到较低的查询精度，结果如图4所示，验证了所提出划分阈值θ设定方法对于降低发布数据的误差具有显著的优化效果。

本发明提出的自适应数据域划分方法，通过比较子数据域频率估计值和划分阈值的大小，确定是否进一步划分子数据域，相比现有算法对于数据域均匀划分更加灵活。其次，本发明通过设置合理的分段数B和划分阈值θ可以有效降低发布数据的查询误差率，增加了数据发布的可用性，适合应用于不同维度场景下的保隐私范围查询分析任务。

实施例

方法执行过程中包含两类角色：数据收集者和用户。

数据收集者一般是需要收集用户数据并对用户数据进行分析的服务提供商，用户是享受数据收集者提供服务的目标群体。数据收集者由于业务需求，计划采集用户敏感信息，例如年龄、收入、行业、家庭人口总数等数据。因为上述数据属于个人隐私数据，数据收集者需要在保证用户数据隐私的前提下进行收集。数据收集者和用户可以利用本发明提出的方法进行数据的交互，用户上传数据前对数据进行扰动处理，保证了用户数据的隐私。数据收集者在收到所用用户上传数据后进行非负化、加权平均、数据补全操作，并将用户数据聚合结果储存成一棵完整多叉树，从完整多叉树中查找节点以完成用户数据范围查询分析。

以上所述仅为本说明书一个或多个实施例的较佳实施例而已，并不用以限制本说明书一个或多个实施例，凡在本说明书一个或多个实施例的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书一个或多个实施例保护的范围之内。

Claims

1.一种基于自适应数据域划分的保隐私范围查询方法，其特征在于，包括以下步骤：

(2)用户随机选择一个用户组，并将组号返回给数据收集者；

2.根据权利要求1所述的一种基于自适应数据域划分的保隐私范围查询方法，其特征在于，所述步骤(1)中，所述数据域划分方式采用均匀划分，划分段数B取2。

3.根据权利要求1所述的一种基于自适应数据域划分的保隐私范围查询方法，其特征在于，所述步骤(1)中，所述总用户组数c通过公式c＝log_B|D|计算得到，D表示数据域，B表示划分段数，在设置数据域D时，需要满足数据域尺寸|D|为B的整数次幂。

4.根据权利要求1所述的一种基于自适应数据域划分的保隐私范围查询方法，其特征在于，所述步骤(3)中，用户基于初始数据域划分方式E₀划分属性数据域D，对于m维属性，沿每个维度同时进行均匀划分，将数据域D划分成B^m个相同大小的子数据域，B表示划分段数。

5.根据权利要求1所述的一种基于自适应数据域划分的保隐私范围查询方法，其特征在于，所述步骤(3)中，数据收集者将该组用户上传的扰动后的独热向量x^′进行逐位累加，计算每个子数据域内的频率估计值

计算公式如下：

其中v表示独热向量中的某一位，count[v]表示该位上x^′累加结果，N表示该组的用户总数，p,q为翻转概率。

6.根据权利要求5所述的一种基于自适应数据域划分的保隐私范围查询方法，其特征在于，所述步骤(5)具体为：数据收集者将初始数据域划分方式E₀下每个子数据域的频率估计值

7.根据权利要求6所述的一种基于自适应数据域划分的保隐私范围查询方法，其特征在于，所述划分阈值θ由以下公式计算得到：

其中B为划分段数，

∈为隐私预算，c为总用户组数。

8.根据权利要求1所述的一种基于自适应数据域划分的保隐私范围查询方法，其特征在于，所述步骤(6)中，所述非负化处理具体为：频率分布估计

内为负的频率值变为0，之后将偏置δ添加分布估计

内的每个频率值上来保持总和为1，如处理后的分布估计

还存在负值，那么重复上述操作直到分布估计

内最小值为0。

9.根据权利要求5所述的一种基于自适应数据域划分的保隐私范围查询方法，其特征在于，所述步骤(6)中，所述加权平均具体为：数据收集者计算划分树中非叶节点n频率估计值与其子节点u频率估计值之和的加权平均值，更新节点n的频率估计值，更新公式如下：

其中

表示更新之后的频率估计值，

由节点n和其子节点u的扰动方差

计算得到。

10.根据权利要求1所述的一种基于自适应数据域划分的保隐私范围查询方法，其特征在于，所述步骤(6)中，所述数据补全具体为：从原始数据域根节点开始，缺少的节点采用其最邻近的父节点频率估计值的

作为其频率估计值，形成一棵完全的B^m叉树，m为属性维度。