CN113722558A - 基于自适应数据域划分的保隐私高维数据范围查询方法 - Google Patents
基于自适应数据域划分的保隐私高维数据范围查询方法 Download PDFInfo
- Publication number
- CN113722558A CN113722558A CN202110994794.8A CN202110994794A CN113722558A CN 113722558 A CN113722558 A CN 113722558A CN 202110994794 A CN202110994794 A CN 202110994794A CN 113722558 A CN113722558 A CN 113722558A
- Authority
- CN
- China
- Prior art keywords
- data
- dimensional
- attribute
- frequency
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- Mathematical Physics (AREA)
- Pure & Applied Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Bioethics (AREA)
- Mathematical Analysis (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Hardware Design (AREA)
- Algebra (AREA)
- Computer Security & Cryptography (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于自适应数据域划分的保隐私高维数据范围查询方法,本发明多组分批收集用户数据,并根据上组用户聚合结果自适应调整数据域划分方式,通过比较子数据域频率估计值和划分阈值的大小,确定是否进一步划分子数据域,相比现有数据域静态划分方式更加灵活。通过设置合理的分段数和划分阈值可以有效降低发布数据的查询误差率,在相同隐私保护程度下,提升聚合结果精度。将待收集属性两两组合分别进行频率分布估计,并采用最大熵优化由二维频率估计结果计算高维范围查询结果,相比于直接处理高维数据域,进一步提高聚合结果精度并大大降低计算和存储开销。交互过程利用本地差分隐私技术对用户数据进行扰动处理,保护了用户数据的隐私。
Description
技术领域
本发明属于数据隐私保护领域,尤其涉及一种基于自适应数据域划分的保隐私高维数据范围查询方法。
背景技术
随着人们对个人隐私权的重视,数据收集者在采集分析数据过程中需要考虑用户敏感数据的保隐私。利用本地差分隐私技术,用户在本地对自己的真实数据进行扰动后上传,可以达到数据保隐私的目的。对于范围查询任务,现有方法按照数据维度可分为两类。对于低维(1维)数据场景,Wang等[1]提出基于完整B叉树结构对整个数据域进行多力度层次分解,并通过累加不同粒度频率估计值来回答范围查询;Cormode等[2]提出应用离散小波变换将每个用户的真实数据转换为Haar小波系数向量后进行扰动,并对系数估计值进行逆变换以获得查询结果。对于高维(≥2维)数据场景,Yang等[3]提出结合一维、二维的频率估计结果,并利用加权更新方法来完成高维范围查询任务。
然而现有的方法存在以下问题。首先,大多数真实世界数据集的数据域中都存在稀疏区域。例如,50-60岁的人在一个足球俱乐部的成员中所占的比例很小。现有方法根据预定义的数据编码方式收集用户数据,不能利用用户上传数据的聚合结果动态调整数据编码方式,真实结果极有可能被注入的扰动噪声淹没。另外,文献[3]所提出针对高维(≥2维)数据场景的方法融合了一维频率估计结果,在估计过程中破坏了多维数据之间的相关性,在数据相关性强的高维数据中效果较差,不能满足数据精度需求。
[1]Wang T,Ding B,Zhou J,et al.Answering multi-dimensional analyticalqueries under local differential privacy[C]//Proceedings of the 2019International Conference on Management of Data.2019:159-176.
[2]Cormode G,Kulkarni T,Srivastava D.Answering range queries underlocal differential privacy[J].Proceedings of the VLDB Endowment,2019,12(10):1126-1138.
[3]Yang J,Wang T,Li N,et al.Answering multi-dimensional range queriesunder local differential privacy[J].Proceedings of the VLDB Endowment,2020,14(3):378-390.
发明内容
本发明的目的在于针对现有方法在用户侧扰动过程引入过量扰动噪声以及估计过程破坏高维数据相关性等缺陷,提供一种基于本地差分隐私技术的自适应数据域划分完成保隐私高维数据范围查询分析任务的方法。
本发明的目的是通过以下技术方案实现的:一种基于自适应数据域划分的保隐私高维数据范围查询方法,该方法包括以下步骤:
(1)数据收集者设置待收集用户属性集合、二维数据域、初始数据域划分方式、隐私预算,其中用户属性集合中包含至少两个用户属性,将属性两两组合计算属性组合总数,将二维数据域、初始数据域划分方式、隐私预算、属性组合总数发送给每个用户;
(2)用户从1到属性组合总数之间选择一个正整数作为组号,将组号返回数据收集者;
(3)数据收集者随机选择一个用户组,选择一个未进行频率分布估计的二维属性组合发送给该组每个用户;同时,根据划分段数和二维数据域确定子用户组数发送给该组每个用户;
(4)用户从1到子用户组数之间选择一个正整数作为子组号,将子组号返回数据收集者;
(5)数据收集者随机选择一个子用户组,将初始数据域划分方式发送给该组的每个用户;用户根据初始数据域划分方式对二维属性组合数据域进行划分,基于划分方式将具体属性值编码为独热向量,用户基于隐私预算计算出扰动翻转概率,对独热向量中的每一位进行扰动翻转,将扰动后的独热向量发送给数据收集者;数据收集者将收到的独热向量逐位累加,并根据扰动翻转概率计算用户数据在数据域划分方式下的频率分布估计;数据收集者将原始数据域作为根节点,切分得到的子数据域作为叶子节点构建划分树,并将子数据域频率估计值填写到对应的叶子节点;
(6)数据收集者判断是否已经遍历所有的子用户组,如果是,则用户信息收集完毕,执行步骤(8),否则执行步骤(7);
(7)数据收集者根据数据域划分方式和对应的频率分布估计,产生新的数据域划分方式,将新的数据域划分方式发送给剩余的某一组用户,循环执行步骤(5)到步骤(7);
(8)数据收集者获得不同数据域划分方式下的用户数据频率分布估计,并通过非负化处理、加权平均和数据补全,得到多粒度频率分布估计完整划分树;
(9)数据收集者判断是否已经遍历所有的用户组,如果是,则用户信息收集完毕,执行步骤(10),否则循环执行步骤(3)到步骤(8)对剩余的二维属性组合进行频率分布估计;
(10)数据收集者通过属性一致化处理,得到最终用于回答高维数据范围查询任务的二维多粒度频率分布估计完整划分树集合;
(11)数据收集者收到高维范围查询分析任务后,采用最大熵优化由二维频率估计结果计算高维数据范围查询结果。
进一步地,所述步骤(1)中,所述数据域划分方式采用均匀划分,划分段数B取4。
进一步地,所述步骤(3)中,所述子用户组数c通过公式c=logB|D|2计算得到,D2表示二维数据域,B表示划分段数,在设置数据域D2时,需要满足数据域尺寸|D|2为B的整数次幂。
其中v表示独热向量中的某一位,count[v]表示该位上x′累加结果,N表示该组的用户总数,p,q为翻转概率。
进一步地,所述步骤(7)具体为:数据收集者将初始数据域划分方式E0下每个子数据域的频率估计值与划分阈值θ进行比较;如果子数据域频率估计值大于划分阈值,则对该子数据域沿两个维度继续切分为更小的子数据域,作为切分前子数据域的叶子节点添加到划分树中,否则该子数据域不再进行划分;当E0下所有子数据域的频率估计值与划分阈值θ完成比较,并完成进一步划分后,得到新的数据域划分方式E1;数据收集者将新的数据域划分方式E1发送给剩余的某一组用户,循环执行步骤(5)到步骤(7)。
进一步地,所述划分阈值θ由以下公式计算得到:
进一步地,所述步骤(8)中,所述非负化处理具体为:频率分布估计内的频率值应满足频率值之和等于1且频率值大于0,非负化处理首先将频率分布估计内为负的频率值变为0,之后将偏置δ添加分布估计内的每个频率值上来保持总和为1,如处理后的分布估计还存在负值,那么重复上述操作直到分布估计内最小值为0;
所述加权平均具体为:数据收集者计算划分树中非叶节点n频率估计值与其子节点u频率估计值之和的加权平均值,更新节点n的频率估计值,更新公式如下:
进一步地,所述步骤(10)中,属性一致化处理具体步骤包括:
1)假设对于某一属性a,包含该属性的(m-1)棵完整划分树集合为{T1,T2,…,Tm-1},除根节点外每棵完整划分树有c层节点,设定l∈[1,2,…,c]表示完整划分树第l层,对于正整数k∈[1,Bl/2],定义表示完整划分树Ti中第l层落入属性a第k个子数据域范围的节点频率估计结果之和,其中属性a第k个子数据域为
2)待收集用户属性中的每个属性都会被(m-1)棵完整划分树包含,那么同一属性的频率分布估计在不同的完整划分树中应保持一致,即在不同的完整划分树中应保持一致;采用加权平均的方式对不同完整划分树中的进行融合,公式如下:
其中fT(a,l,k)表示加权平均后的结果,λi表示权重,公式如下:
4)对于所有待收集用户属性,在不同的完整划分树Ti中逐层进行属性一致化处理,直到所有属性在所有完整划分树中完成属性一致化。
进一步地,所述步骤(11)中,m维范围查询分析任务q是统计m个数据维度围成的m维立方体内的用户数据频率值;定义m维范围查询分析任务q的相关任务集合为下式:
其中[αj,βj]表示属性aj上的查询范围,表示查询范围[αj,βj]在属性aj上的补集,∧表示属性的区间组合;对于集合Q(q)中的2m个m维范围查询,定义fq为对应的查询结果集合;对于m维查询任务g∈Q(q),定义fq(g)为查询任务g的结果;对于待收集属性集合A中任意两个属性aj和ak,可以得到关于属性aj和ak的相关任务集合,如下式:
max-∑g∈Q(q)fq(g)·log(fq(g))
其中-∑g∈Q(q)fq(g)·log(fq(g))为fq(g)的最大熵形式,第一个约束条件 限制求解出来的频率估计值fq(g)非负,第二个约束条件 表示求解出的m维查询结果集合fq关于任意属性aj,ak组合的范围查询结果fq(g(j,k))要与二维查询结果保持一致。
进一步地,所述步骤(11)中,二维查询结果从属性aj,ak的二维完整划分树T中获取,对于任意的二维查询[αj,βj]∧[αk,βk],从根节点向叶子节点搜索二维完整划分树T,找到恰好覆盖查询空间[αj,βj]∧[αk,βk]的最少节点集合,并累加找到的节点频率估计值作为查询结果。
本发明的优点及有益效果是:本发明多组分批收集用户数据,并根据上组用户的聚合结果自适应调整数据域划分方式收集用户数据,通过比较子数据域频率估计值和划分阈值的大小,确定是否进一步划分子数据域,相比现有算法对于数据域静态划分更加灵活。其次,本发明通过设置合理的分段数和划分阈值可以有效降低发布数据的查询误差率,在相同隐私保护程度下,提升了聚合结果的精度。另外,将待收集属性两两组合分别进行频率分布估计,并采用最大熵优化由二维频率估计结果计算高维范围查询结果,相比于直接处理高维数据域,进一步提高聚合结果精度并大大降低计算和存储开销。最后,交互过程利用本地差分隐私技术对用户数据进行扰动处理,保护了用户数据的隐私。
附图说明
图1为本发明方法流程图;
图2为本发明所涉及的保隐私高维数据范围查询方法在模拟数据集上查询精度比较图;
图3为本发明所涉及的保隐私高维数据范围查询方法在真实数据集上查询精度比较图;
图4为本发明所涉及的保隐私高维数据范围查询方法随数据维度增加查询精度变化图;
图5为本发明所涉及的自适应数据域划分算法在不同划分阈值下的查询精度比较图。
具体实施方式
为了更好的理解本申请的技术方案,下面结合附图对本申请实施例进行详细描述。
应当明确,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
图1为本发明一个实施例中的基于自适应数据域划分的保隐私高维数据范围查询方法流程图。本实施例提供的基于自适应数据域划分的保隐私高维数据范围查询方法,该方法包括以下步骤:
第一步,数据收集者设置待收集用户属性集合A(包含m个用户属性,m≥2)、二维数据域D2、初始数据域划分方式E0、隐私预算∈,将待收集用户属性两两组合计算出属性组合总数之后,数据收集者将二维数据域D2、初始数据域划分方式E0、隐私预算∈、属性组合总数发送给每一个用户。具体实现如下:
1)待收集用户属性指数据收集者需要进行分析的用户隐私数据,例如年龄、收入、储蓄总额、贷款总额等数据。待收集用户属性集合A包含m个用户属性即表示用户数据为m维数据。
2)数据域由待收集用户属性决定,m维数据采用统一的数据域D。数据域D根据m维数据中范围最大的属性确定,例如在年龄、收入、储蓄总额、贷款总额四个属性中,待收集用户储蓄总额属性数据范围最大D=[1,200],那么所有属性的数据域均设置为D。此时二维数据域为二维平面D2=[1,200]×[1,200],数据域尺寸就是|D|2=40000。
3)初始数据域划分方式E0是指对二维数据域进行拆分的方式,例如将二维数据域[1,200]×[1,200]均分为4个子数据域[1,100]×[1,100]、[1,100]×[101,200]、[101,200]×[1,100]和[101,200]×[101,200]就是一种划分方式(下面步骤中,数据域划分如无特殊说明,默认为均匀划分,划分段数为B);此处最优划分段数B=4由下列(1)式推导得到。
其中随机变量X和方差σ2刻画扰动翻转对真实数据的影响,|D|2表示数据域尺寸,f为数据域的频率真实值,表示总扰动误差的期望;(1)式关于B求导数共有两个极值点B=0.6和B=2.2。设置的分段数需要保证在两个维度上切分粒度相同以及切分后子数据域形状相同,所以分段数只能取大于1的正整数的2次幂,即22,32,42,…。又因为(1)式在B∈[2.2,∞)单调递增,所以最优划分段数B=22。
4)二维属性组合,例如待收集用户属性为年龄、收入、储蓄总额、贷款总额四个属性,年龄和收入便构成一个二维属性组合。
5)隐私预算∈为用户数据隐私保护程度的量度,根据用户数据隐私保护需求事先确定。在相同情况下,隐私预算∈越小表示用户数据的隐私保护程度越强;反之,用户数据的隐私保护程度越弱。
第三步,数据收集者随机选择一个用户组,选择一个未进行频率分布估计的二维属性组合发送给该组的每个用户。同时,根据划分段数B和二维数据域D2确定子用户组数c,发送给该组的每个用户。具体实现如下:
在进行数据域划分时,为了保证数据域划分的充分性(划分后最小区间为单个数据值),子用户组数c可通过公式c=logB|D|2计算得到。在设置数据域D2时,需要满足数据域尺寸|D|2为B的整数次幂。
第四步,用户收到数据收集者发送的二维属性组合和子用户组数c后,从1到c之间随机选择一个正整数作为自己的子组号,并将选择的子组号返回给数据收集者。
第五步,数据收集者随机选择一个子用户组,并将初始数据域划分方式E0发送给该组的每个用户,用户根据初始数据域划分方式E0对二维属性组合数据域D2进行划分,并基于划分方式将具体属性值编码为独热向量x。用户基于隐私预算∈计算出扰动翻转概率并对独热向量中的每一位进行扰动翻转。之后将扰动后的独热向量x′发送给数据收集者,数据收集者将收到的独热向量x′逐位累加,并根据扰动翻转概率计算用户数据在数据域划分方式E0下的频率分布估计。其具体步骤如下:
1)用户基于数据域划分方式E0划分二维属性组合数据域D2。沿每个维度同时进行均匀划分,将数据域D2划分成B个相同大小的子数据域。例如,每个属性的数据域都是D=[1,200],二维属性组合数据域划分即是对二维属性组成的二维平面D2=[1,200]×[1,200]沿两个维度切分为4个边长为100的子数据域[1,100]×[1,100]、[1,100]×[101,200]、[101,200]×[1,100]和[101,200]×[101,200]。
2)用户将自己的真实数据进行独热编码。例如,用户数据是(53,17),这两个数据组成的空间点处在[1,100]×[1,100]子数据域内,所以该用户数据经过独热编码为x=(1,0,0,0)。
3)用户对独热编码x进行逐位翻转。用户以p的概率将1翻转为0,以q的概率将0翻转为1,经过翻转后形成向量x′,并将x′发送给数据收集者。
其中v表示独热编码中的某一位,count[v]表示该位上x′累加结果,N表示该组的用户总数,p,q为翻转概率。
5)数据收集者将原始数据域D2作为根节点,切分得到的子数据域作为叶子节点构建一棵划分树T,并将子数据域频率估计值填写到对应的叶子节点。
第六步,数据收集者判断是否已经遍历所有的子用户组。如果是,则用户信息收集完毕,执行第八步后向处理;如果否,则执行第七步产生新的数据域划分方式。
2)如果子数据域频率估计值大于划分阈值θ,则对该子数据域沿两个维度切分为4个更小的子数据域,作为切分前子数据域的叶子节点添加到划分树T中。如果子数据域频率估计值小于等于划分阈值θ,则该子数据域不再进行划分。
4)当E0下所有子数据域的频率估计值与划分阈值θ完成比较,并完成进一步划分后,得到新的数据域划分方式E1。
5)数据收集者将新的数据域划分方式E1发送给剩余的某一组用户,循环执行第五步到第七步。
第八步,数据收集者获得不同数据域划分方式{E0,E1,...,Ec-1}下的用户数据频率分布估计并通过非负化处理、加权平均和数据补全三个步骤,得到最终用于回答范围查询任务的多粒度频率分布估计完整划分树T,其具体步骤如下:
1)非负化处理,频率分布估计内的频率值应满足两个约束条件:频率值之和等于1且频率值大于0。非负化处理首先将频率分布估计内为负的频率值变为0,之后将偏置δ添加分布估计内的每个频率值上来保持总和为1。如处理后的分布估计还存在负值,那么重复上述操作直到分布估计内最小值为0(由于计算机计算精度限制,重复上述操作直到分布估计内最小值与0之差小于计算精度即可结束非负化处理),经过非负化处理后的分布估计加(4)式所示:
2)加权平均,数据收集者计算划分树T中非叶节点n频率估计值与其子节点u频率估计值之和的加权平均值,更新节点n的频率估计值。更新过程如(5)式所示:
第十步,数据收集者获得棵完整划分树集合包含全部二维属性组合的频率分布估计结果。数据收集者通过属性一致化处理,得到最终用于回答高维数据范围查询任务的二维多粒度频率分布估计完整划分树集合属性一致化处理具体步骤如下:
1)假设对于某一属性a,包含该属性的(m-1)棵完整划分树集合为{T1,T2,…,Tm-1},除根节点外每棵完整划分树有c层节点,设定l∈[1,2,…,c]表示完整划分树第l层(从根节点到叶子节点从小到大计数,除去根节点)。对于正整数k∈[1,Bl/2],定义表示完整划分树Ti中第l层落入属性a第k个子数据域范围的节点频率估计结果之和,其中属性a第k个子数据域为
2)待收集用户属性中的每个属性都会被(m-1)棵完整划分树包含,那么同一属性的频率分布估计在不同的完整划分树中应保持一致,即在不同的完整划分树中应保持一致。采用加权平均的方式对不同完整划分树中的进行融合,计算过程如(6)式所示:
其中fT(a,l,k)表示加权平均之后的结果,λi表示权重由(7)式计算得到:
其中表示完整划分树Ti中第l层落入属性a第k个子数据域范围的节点频率估计结果之和的方差,每个节点的当前方差根据第八步后向处理以及节点原始扰动方差计算得到。具体来说,第八步中非负化处理对节点原始扰动方差无影响,加权平均和数据补全后的方差可以由具体的权重和补全过程结合方差的性质得到。
4)对于所有待收集用户属性,在不同的完整划分树Ti中逐层进行属性一致化处理,直到所有属性在所有完整划分树中完成属性一致化。
第十一步,回答范围查询分析任务,采用最大熵优化由二维频率估计结果计算高维范围查询结果。例如,m维范围查询分析任务q是统计m个数据维度[α1,β1],[α2,β2],...,[αm,βm]围成的m维立方体内的用户数据频率值。定义上述m维范围查询分析任务q的相关任务集合为(8)式:
其中[αj,βj]表示属性aj上的查询范围,表示查询范围[αj,βj]在属性aj上的补集,∧表示属性的区间组合。对于集合Q(q)中的2m个m维范围查询,定义fq为对应的查询结果集合。对于m维查询任务g∈Q(q),定义fq(g)为查询任务g的结果。对于待收集属性集合A中任意两个属性aj和ak,可以得到关于属性aj和ak的相关任务集合,如(9)式所示:
max-∑g∈Q(q)fq(g)·log(fq(g))
其中-∑g∈Q(q)fq(g)·log(fq(g))为fq(g)的最大熵形式,第一个约束条件 限制求解出来的频率估计值fq(g)非负,第二个约束条件 表示求解出的m维查询结果集合fq关于任意属性aj,ak组合的范围查询结果fq(g(j,k))要与二维查询结果保持一致。二维查询结果从属性aj,ak的二维完整划分树T中获取。具体来说,对于任意的二维查询[αj,βj]∧[αk,βk],从根节点向叶子节点搜索二维完整划分树T,找到恰好覆盖查询空间[αj,βj]∧[αk,βk]的最少节点集合,并累加找到的节点频率估计值作为查询结果。
对比以上步骤配以实验分析如下:
为了验证本发明方法的有效性,下面使用真实数据集(Loan,BlackFriday,Salaries)和模拟数据集(Laplacian,Gaussian)进行实验,说明本发明所提方法在提升数据可用性上的良好性能。
实验环境:Intel Xeon Platinum 8269@2.5GHz,32GB内存,Ubuntu操作系统。实验所涉及代码使用Python语言编写。
将本发明提出的基于划分阈值θ的保隐私自适应多粒度频率分布估计算法,与相关领域最新算法(HDG)进行查询精度对比。每组实验设置下随机生成200个范围查询任务,并重复实验20次,统计20次实验查询结果均方误差MSE的平均值、方差以及95%置信区间,将本发明方法记为LLE_AHEAD_B2和LLE_AHEAD_B4,“_B2”和“_B4”表示不同的分段数,其中“_B2”是基于(1)式推导得出的划分数。另外,本发明还对比了直接对高维数据域进行频率估计的方法记作DE_AHEAD_B2和DE_AHEAD_B4。
图2展示本发明算法在真实数据集与同领域最新算法的查询误差对比,图3展示本发明算法在模拟数据集与同领域最新算法的查询误差对比,图4展示本发明算法与同领域最新算法随数据维度增大时查询误差的变化情况。实验表明,相比于同领域最新算法,本发明方法可以有效降低扰动过程对于真实数据可用性的影响,在相同的隐私保护程度下获得更高的查询结果精度。
在不同的数据集、隐私预算、查询维度条件下,如图2、图3和图4所示,分段数B=22(LLE_AHEAD_B2)相比于分段数B=42(LLE_AHEAD_B4),均取得更小的查询误差MSE。另外,如图2、图3所示,相比于直接对高维数据域进行频率估计的方法(DE_AHEAD_B2和DE_AHEAD_B4),本发明提出的采用最大熵优化的方法(LLE_AHEAD_B2和LLE_AHEAD_B4)能够进一步提高聚合结果精度。
在不同的数据集、隐私预算下,本发明方法所提出的划分阈值θ设定方法均能得到较低的查询精度,结果如图5所示,验证了所提出划分阈值θ设定方法对于降低发布数据的误差具有显著的优化效果。
本发明提出的自适应数据域划分的保隐私高维数据范围查询方法,通过比较子数据域频率估计值和划分阈值的大小,确定是否进一步划分子数据域,相比现有算法对于静态数据域均匀划分更加灵活。其次,本发明通过设置合理的分段数B和划分阈值θ可以有效降低发布数据的查询误差率,增加了数据发布的可用性。另外,本发明将待收集属性两两组合分别进行频率分布估计,并采用最大熵优化由二维频率估计结果计算高维范围查询结果,相比于直接处理高维数据域,进一步提高聚合结果精度并大大降低计算和存储开销,适合应用于高维度场景下的保隐私范围查询分析任务。
实施例1
方法执行过程中包含两类角色:数据收集者和用户。
数据收集者一般是需要收集用户数据并对用户数据进行分析的服务提供商,用户是享受数据收集者提供服务的目标群体。数据收集者由于业务需求,计划采集用户敏感信息,例如年龄、收入、行业、家庭人口总数等数据。因为上述数据属于个人隐私数据,数据收集者需要在保证用户数据隐私的前提下进行收集。数据收集者和用户可以利用本发明提出的方法进行数据的交互,用户上传数据前对数据进行扰动处理,保证了用户数据的隐私。数据收集者在完成每个属性组合频率估计后进行非负化、加权平均、数据补全操作,并将属性组合频率估计结果储存成一棵完整多叉树。当完成所有属性组合估计后,数据收集者对所有属性组合的完整多叉树集合进行属性一致化处理,保证同一属性在不同属性组合中具有相同的频率分布估计。接着数据收集者采用最大熵优化的方法,基于二维频率估计结果完成高维范围查询任务。
以上所述仅为本说明书一个或多个实施例的较佳实施例而已,并不用以限制本说明书一个或多个实施例,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例保护的范围之内。
Claims (10)
1.一种基于自适应数据域划分的保隐私高维数据范围查询方法,其特征在于,包括:
(1)数据收集者设置待收集用户属性集合、二维数据域、初始数据域划分方式、隐私预算,其中用户属性集合中包含至少两个用户属性,将属性两两组合计算属性组合总数,将二维数据域、初始数据域划分方式、隐私预算、属性组合总数发送给每个用户;
(2)用户从1到属性组合总数之间选择一个正整数作为组号,将组号返回数据收集者;
(3)数据收集者随机选择一个用户组,选择一个未进行频率分布估计的二维属性组合发送给该组每个用户;同时,根据划分段数和二维数据域确定子用户组数发送给该组每个用户;
(4)用户从1到子用户组数之间选择一个正整数作为子组号,将子组号返回数据收集者;
(5)数据收集者随机选择一个子用户组,将初始数据域划分方式发送给该组的每个用户;用户根据初始数据域划分方式对二维属性组合数据域进行划分,基于划分方式将具体属性值编码为独热向量,用户基于隐私预算计算出扰动翻转概率,对独热向量中的每一位进行扰动翻转,将扰动后的独热向量发送给数据收集者;数据收集者将收到的独热向量逐位累加,并根据扰动翻转概率计算用户数据在数据域划分方式下的频率分布估计;数据收集者将原始数据域作为根节点,切分得到的子数据域作为叶子节点构建划分树,并将子数据域频率估计值填写到对应的叶子节点;
(6)数据收集者判断是否已经遍历所有的子用户组,如果是,则用户信息收集完毕,执行步骤(8),否则执行步骤(7);
(7)数据收集者根据数据域划分方式和对应的频率分布估计,产生新的数据域划分方式,将新的数据域划分方式发送给剩余的某一组用户,循环执行步骤(5)到步骤(7);
(8)数据收集者获得不同数据域划分方式下的用户数据频率分布估计,并通过非负化处理、加权平均和数据补全,得到多粒度频率分布估计完整划分树;
(9)数据收集者判断是否已经遍历所有的用户组,如果是,则用户信息收集完毕,执行步骤(10),否则循环执行步骤(3)到步骤(8)对剩余的二维属性组合进行频率分布估计;
(10)数据收集者通过属性一致化处理,得到最终用于回答高维数据范围查询任务的二维多粒度频率分布估计完整划分树集合;
(11)数据收集者收到高维范围查询分析任务后,采用最大熵优化由二维频率估计结果计算高维数据范围查询结果。
2.根据权利要求1所述的一种基于自适应数据域划分的保隐私高维数据范围查询方法,其特征在于,所述步骤(1)中,所述数据域划分方式采用均匀划分,划分段数B取4。
3.根据权利要求1所述的一种基于自适应数据域划分的保隐私高维数据范围查询方法,其特征在于,所述步骤(3)中,所述子用户组数c通过公式c=logB|D|2计算得到,D2表示二维数据域,B表示划分段数,在设置数据域D2时,需要满足数据域尺寸|D|2为B的整数次幂。
7.根据权利要求1所述的一种基于自适应数据域划分的保隐私高维数据范围查询方法,其特征在于,所述步骤(8)中,所述非负化处理具体为:频率分布估计内的频率值应满足频率值之和等于1且频率值大于0,非负化处理首先将频率分布估计内为负的频率值变为0,之后将偏置δ添加分布估计内的每个频率值上来保持总和为1,如处理后的分布估计还存在负值,那么重复上述操作直到分布估计内最小值为0;
所述加权平均具体为:数据收集者计算划分树中非叶节点n频率估计值与其子节点u频率估计值之和的加权平均值,更新节点n的频率估计值,更新公式如下:
8.根据权利要求1所述的一种基于自适应数据域划分的保隐私高维数据范围查询方法,其特征在于,所述步骤(10)中,属性一致化处理具体步骤包括:
1)假设对于某一属性a,包含该属性的(m-1)棵完整划分树集合为{T1,T2,…,Tm-1},除根节点外每棵完整划分树有c层节点,设定l∈[1,2,…,c]表示完整划分树第l层,对于正整数k∈[1,Bl/2],定义表示完整划分树Ti中第l层落入属性a第k个子数据域范围的节点频率估计结果之和,其中属性a第k个子数据域为
2)待收集用户属性中的每个属性都会被(m-1)棵完整划分树包含,那么同一属性的频率分布估计在不同的完整划分树中应保持一致,即在不同的完整划分树中应保持一致;采用加权平均的方式对不同完整划分树中的进行融合,公式如下:
其中fT(a,l,k)表示加权平均后的结果,λi表示权重,公式如下:
4)对于所有待收集用户属性,在不同的完整划分树Ti中逐层进行属性一致化处理,直到所有属性在所有完整划分树中完成属性一致化。
9.根据权利要求1所述的一种基于自适应数据域划分的保隐私高维数据范围查询方法,其特征在于,所述步骤(11)中,m维范围查询分析任务q是统计m个数据维度围成的m维立方体内的用户数据频率值;定义m维范围查询分析任务q的相关任务集合为下式:
其中[αj,βj]表示属性aj上的查询范围,表示查询范围[αj,βj]在属性aj上的补集,∧表示属性的区间组合;对于集合Q(q)中的2m个m维范围查询,定义fq为对应的查询结果集合;对于m维查询任务g∈Q(q),定义fq(g)为查询任务g的结果;对于待收集属性集合A中任意两个属性aj和ak,可以得到关于属性aj和ak的相关任务集合,如下式:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110994794.8A CN113722558B (zh) | 2021-08-27 | 2021-08-27 | 基于自适应数据域划分的保隐私高维数据范围查询方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110994794.8A CN113722558B (zh) | 2021-08-27 | 2021-08-27 | 基于自适应数据域划分的保隐私高维数据范围查询方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113722558A true CN113722558A (zh) | 2021-11-30 |
CN113722558B CN113722558B (zh) | 2023-05-02 |
Family
ID=78678423
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110994794.8A Active CN113722558B (zh) | 2021-08-27 | 2021-08-27 | 基于自适应数据域划分的保隐私高维数据范围查询方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113722558B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170169253A1 (en) * | 2015-12-10 | 2017-06-15 | Neustar, Inc. | Privacy-aware query management system |
CN112131603A (zh) * | 2020-09-24 | 2020-12-25 | 合肥城市云数据中心股份有限公司 | 一种基于四叉树自适应划分技术的二维空间数据差分隐私发布方法 |
CN113297621A (zh) * | 2021-06-10 | 2021-08-24 | 南京航空航天大学 | 一种基于个性化本地差分隐私的数据收集方法 |
-
2021
- 2021-08-27 CN CN202110994794.8A patent/CN113722558B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170169253A1 (en) * | 2015-12-10 | 2017-06-15 | Neustar, Inc. | Privacy-aware query management system |
CN112131603A (zh) * | 2020-09-24 | 2020-12-25 | 合肥城市云数据中心股份有限公司 | 一种基于四叉树自适应划分技术的二维空间数据差分隐私发布方法 |
CN113297621A (zh) * | 2021-06-10 | 2021-08-24 | 南京航空航天大学 | 一种基于个性化本地差分隐私的数据收集方法 |
Non-Patent Citations (2)
Title |
---|
张啸剑等: "基于本地差分隐私的空间范围查询方法", 《计算机研究与发展》 * |
晏燕等: "差分隐私密度自适应网格划分发布方法", 《山东大学学报(理学版)》 * |
Also Published As
Publication number | Publication date |
---|---|
CN113722558B (zh) | 2023-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhou et al. | Accelerating online cp decompositions for higher order tensors | |
KR100313198B1 (ko) | 압축된 히스토그램 정보를 사용한 다차원 선택율 추정 방법 | |
KR101003842B1 (ko) | 다차원 데이터 스트림을 위한 클러스터링 방법 및 시스템 | |
CN111159483B (zh) | 一种基于张量计算的社交网络图摘要的生成方法 | |
CN109086830B (zh) | 基于样本惩罚的典型关联分析近重复视频检测方法 | |
WO2022088390A1 (zh) | 图像的增量聚类方法、装置、电子设备、存储介质及程序产品 | |
Neethu et al. | Review of spatial clustering methods | |
Sadik et al. | DBOD-DS: Distance based outlier detection for data streams | |
CN112884149A (zh) | 一种基于随机敏感度st-sm的深度神经网络剪枝方法及系统 | |
Hong et al. | Variational gridded graph convolution network for node classification | |
CN113240111A (zh) | 基于离散余弦变换通道重要性得分的剪枝方法 | |
CN110580252B (zh) | 多目标优化下的空间对象索引与查询方法 | |
CN110334290B (zh) | 一种基于MF-Octree的时空数据快速检索方法 | |
Wang et al. | QoS prediction of web services based on reputation-aware network embedding | |
Wang et al. | Time series clustering based on sparse subspace clustering algorithm and its application to daily box-office data analysis | |
Deligiannakis et al. | Extended wavelets for multiple measures | |
CN113722558A (zh) | 基于自适应数据域划分的保隐私高维数据范围查询方法 | |
Gothwal et al. | The survey on skyline query processing for data-specific applications | |
Huang et al. | A grid and density based fast spatial clustering algorithm | |
CN113722556B (zh) | 基于自适应数据域划分的保隐私范围查询方法 | |
Kamel et al. | MG-join: detecting phenomena and their correlation in high dimensional data streams | |
CN110309179B (zh) | 基于并行pso的最大容错频繁项集挖掘方法 | |
Ma et al. | Differentiable Network Pruning via Polarization of Probabilistic Channelwise Soft Masks | |
Ishikawa et al. | A dynamic mobility histogram construction method based on Markov chains | |
CN113806612B (zh) | 一种基于索引在用户电影网络中探测关键社区的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |