CN113722556B - 基于自适应数据域划分的保隐私范围查询方法 - Google Patents

基于自适应数据域划分的保隐私范围查询方法 Download PDF

Info

Publication number
CN113722556B
CN113722556B CN202110889786.7A CN202110889786A CN113722556B CN 113722556 B CN113722556 B CN 113722556B CN 202110889786 A CN202110889786 A CN 202110889786A CN 113722556 B CN113722556 B CN 113722556B
Authority
CN
China
Prior art keywords
data
data domain
frequency
user
division
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110889786.7A
Other languages
English (en)
Other versions
CN113722556A (zh
Inventor
孙铭阳
杜林康
程鹏
陈积明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202110889786.7A priority Critical patent/CN113722556B/zh
Publication of CN113722556A publication Critical patent/CN113722556A/zh
Application granted granted Critical
Publication of CN113722556B publication Critical patent/CN113722556B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Pure & Applied Mathematics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Operations Research (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Computational Linguistics (AREA)
  • Complex Calculations (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于自适应数据域划分的保隐私范围查询方法,本发明多组分批收集用户数据,并根据上组用户的聚合结果自适应调整数据域划分方式收集用户数据,通过比较子数据域频率估计值和划分阈值的大小,确定是否进一步划分子数据域,相比现有算法对于数据域静态划分更加灵活。其次,本发明通过设置合理的分段数和划分阈值可以有效降低发布数据的查询误差率,在相同隐私保护程度下,提升了聚合结果的精度。最后,交互过程利用本地差分隐私技术对用户数据进行扰动处理,保护了用户数据的隐私。

Description

基于自适应数据域划分的保隐私范围查询方法
技术领域
本发明属于数据隐私保护领域,尤其涉及一种基于自适应数据域划分的保隐私范围查询方法。
背景技术
随着人们对个人隐私权的重视,数据收集者在采集分析数据过程中需要考虑用户敏感数据的保隐私。利用本地差分隐私技术,用户在本地对自己的真实数据进行扰动后上传,可以达到数据保隐私的目的。现在方法按照用户数据编码方式的不同可以分为两大类,基于层级结构分解的方法和基于离散小波变换的方法。基于层级结构分解的方法[1,2]将数据域划分为均匀多粒度的子数据域,用户随机选择粒度并将数据按数据域划分进行编码,扰动后上传至数据收集者;基于离散小波变换的方法[3]将数据域转化为离散小波系数,用户随机选择一组离散小波系数将数据进行编码,并将扰动后的离散小波系数上传至数据收集者。
这些方法根据预定义的数据编码方式收集用户数据,不能利用用户上传数据的聚合结果动态调整数据编码方式,导致用户侧数据扰动过程引入了过量的扰动噪声,范围查询分析的结果较差,不能满足数据精度需求。
[1]Wang T,Ding B,Zhou J,et al.Answering multi-dimensional analyticalqueries under local differential privacy[C]//Proceedings of the2019International Conference on Management of Data.2019:159-176.
[2]Yang J,Wang T,Li N,et al.Answering multi-dimensional range queriesunder local differential privacy[J].Proceedings of the VLDB Endowment,2020,14(3):378-390.
[3]Cormode G,Kulkarni T,Srivastava D.Answering range queries underlocal differential privacy[J].Proceedings of the VLDB Endowment,2019,12(10):1126-1138.
发明内容
本发明的目的在于针对现有方法预定义静态数据编码方式以及用户侧扰动过程引入过量扰动噪声等缺陷,提供一种基于本地差分隐私技术的自适应数据域划分完成保隐私范围查询分析任务的方法。
本发明的目的是通过以下技术方案实现的:一种基于自适应数据域划分的保隐私范围查询方法,该方法包括以下步骤:
(1)数据收集者设置待收集用户属性集合、数据域、数据域划分方式、隐私预算,计算总用户组数,将待收集用户属性集合、数据域、隐私预算和总用户组数发送给每个用户;
(2)用户随机选择一个用户组,并将组号返回给数据收集者;
(3)数据收集者随机选择一个用户组,将初始数据域划分方式发送给该组的每个用户;用户根据初始数据域划分方式对用户属性的数据域进行划分,基于划分方式将具体属性值编码为独热向量,用户基于隐私预算计算出扰动翻转概率,对独热向量中的每一位进行扰动翻转,将扰动后的独热向量发送给数据收集者;数据收集者将收到的独热向量逐位累加,并根据扰动翻转概率计算用户数据在初始数据域划分方式下的频率分布估计;数据收集者将原始数据域作为根节点,切分得到的子数据域作为叶子节点构建划分树,并将子数据域频率估计值填写到对应的叶子节点;
(4)数据收集者判断是否已经遍历所有的用户组,如果是,则用户信息收集完毕,执行步骤(6),否则执行步骤(5);
(5)数据收集者根据数据域划分方式和对应的频率分布估计,产生新的数据域划分方式,将新的数据域划分方式发送给剩余的某一组用户,循环执行步骤(3)到步骤(5);
(6)数据收集者获得不同数据域划分方式下的用户数据频率分布估计,并通过非负化处理、加权平均和数据补全,得到最终用于回答范围查询任务的多粒度频率分布估计完整划分树;
(7)数据收集者收到范围查询分析任务后,从完整划分树根节点向叶子节点搜索,找到恰好覆盖查询空间的最少节点集合,并累加找到的节点频率估计值作为查询结果。
进一步地,所述步骤(1)中,所述数据域划分方式采用均匀划分,划分段数B取2。
进一步地,所述步骤(1)中,所述总用户组数c通过公式c=logB|D|计算得到,D表示数据域,B表示划分段数,在设置数据域D时,需要满足数据域尺寸|D|为B的整数次幂。
进一步地,所述步骤(3)中,用户基于初始数据域划分方式E0划分属性数据域D,对于m维属性,沿每个维度同时进行均匀划分,将数据域D划分成Bm个相同大小的子数据域,B表示划分段数。
进一步地,所述步骤(3)中,数据收集者将该组用户上传的扰动后的独热向量x′进行逐位累加,计算每个子数据域内的频率估计值
Figure BDA0003195426260000021
计算公式如下:
Figure BDA0003195426260000022
其中v表示独热向量中的某一位,count[v]表示该位上x′累加结果,N表示该组的用户总数,p,q为翻转概率。
进一步地,所述步骤(5)具体为:数据收集者将初始数据域划分方式E0下每个子数据域的频率估计值
Figure BDA0003195426260000023
与划分阈值θ进行比较;如果子数据域频率估计值大于划分阈值θ,则对该子数据域沿m个维度继续切分为更小的子数据域,作为切分前子数据域的叶子节点添加到划分树中,否则该子数据域不再进行划分;当E0下所有子数据域的频率估计值与划分阈值θ完成比较,并完成进一步划分后,得到新的数据域划分方式E1;数据收集者将新的数据域划分方式E1发送给剩余的某一组用户,执行步骤(3)。
进一步地,所述划分阈值θ由以下公式计算得到:
Figure BDA0003195426260000031
其中B为划分段数,
Figure BDA0003195426260000032
∈为隐私预算,c为总用户组数。
进一步地,所述步骤(6)中,所述非负化处理具体为:频率分布估计
Figure BDA0003195426260000033
内的频率值应满足频率值之和等于1且频率值大于0,非负化处理首先将频率分布估计
Figure BDA0003195426260000034
内为负的频率值变为0,之后将偏置δ添加分布估计
Figure BDA0003195426260000035
内的每个频率值上来保持总和为1,如处理后的分布估计
Figure BDA0003195426260000036
还存在负值,那么重复上述操作直到分布估计
Figure BDA0003195426260000037
内最小值为0。
进一步地,所述步骤(6)中,所述加权平均具体为:数据收集者计算划分树中非叶节点n频率估计值与其子节点u频率估计值之和的加权平均值,更新节点n的频率估计值,更新公式如下:
Figure BDA0003195426260000038
其中
Figure BDA0003195426260000039
表示更新之后的频率估计值,
Figure BDA00031954262600000310
由节点n和其子节点u的扰动方差
Figure BDA00031954262600000311
计算得到。
进一步地,所述步骤(6)中,所述数据补全具体为:从原始数据域根节点开始,缺少的节点采用其最邻近的父节点频率估计值的
Figure BDA00031954262600000312
作为其频率估计值,形成一棵完全的Bm叉树,m为属性维度。
本发明的优点及有益效果是:本发明多组分批收集用户数据,并根据上组用户的聚合结果自适应调整数据域划分方式收集用户数据,通过比较子数据域频率估计值和划分阈值的大小,确定是否进一步划分子数据域,相比现有算法对于数据域静态划分更加灵活。其次,本发明通过设置合理的分段数和划分阈值可以有效降低发布数据的查询误差率,在相同隐私保护程度下,提升了聚合结果的精度。最后,交互过程利用本地差分隐私技术对用户数据进行扰动处理,保护了用户数据的隐私。
附图说明
图1为本发明方法流程图;
图2为本发明所涉及的自适应数据域划分算法的一维场景下的查询精度比较图;
图3为本发明所涉及的自适应数据域划分算法的二维场景下的查询精度比较图;
图4为本发明所涉及的自适应数据域划分算法在不同划分阈值下的查询精度比较图。
具体实施方式
为了更好的理解本申请的技术方案,下面结合附图对本申请实施例进行详细描述。
应当明确,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
图1为本发明一个实施例中的基于自适应数据域划分的保隐私范围查询方法流程图。本实施例提供的基于自适应数据域划分的保隐私范围查询方法,该方法包括以下步骤:
第一步,数据收集者设置待收集用户属性集合A、数据域D、数据域划分方式W、隐私预算∈,并计算出总用户组数c。之后,数据收集者将待收集用户属性集合A、数据域D、隐私预算∈和总用户组数c发送给每一个用户。具体实现如下:
1)待收集用户属性指数据收集者需要进行分析的用户隐私数据,例如年龄、收入、储蓄总额、贷款总额等数据。
2)数据域由具体属性决定,例如人的年龄一般是处于1到200岁之间,那么年龄的数据域就是D=[1,200,数据域尺寸就是|D|=200。
3)数据域划分方式E是指对数据域进行拆分的方式,例如将数据域[0,200均分为2段[1,100和[101,200就是一种划分方式(下面步骤中,数据域划分如无特殊说明,默认为均匀划分,划分段数为B);此处最优划分段数B=2由下列(1)式推导得到。
Figure BDA0003195426260000041
其中随机变量X和方差σ2刻画扰动翻转对真实数据的影响,||表示数据域尺寸,f为数据域的频率真实值,
Figure BDA0003195426260000042
表示总扰动误差的期望;(1)式关于B求导数共有两个极值点B=0.6和B=2.2。分段数B是大于1的正整数且B=2时(1)式的值小于B=3,所以最优划分段数B=2。
4)隐私预算∈为用户数据隐私保护程度的量度,根据用户数据隐私保护需求事先确定。在相同情况下,隐私预算∈越小表示用户数据的隐私保护程度越强;反之,用户数据的隐私保护程度越弱。
5)在进行数据域划分时,为了保证数据域划分的充分性(划分后最小区间为单个数据值),总用户组数c可通过公式c=logB|D|计算得到。在设置数据域D时,需要满足数据域尺寸|D|为B的整数次幂。
第二步,用户收到数据收集者发送的待收集用户属性集合A、数据域D、隐私预算∈和总用户组数c后,从1到c之间随机选择一个正整数作为自己的组号,并将选择的组号返回给数据收集者。
第三步,数据收集者随机选择一个用户组,并将初始数据域划分方式E0发送给该组的每个用户,用户根据初始数据域划分方式E0对集合A中的用户属性的数据域D进行划分,并基于划分方式将具体属性值编码为独热向量x。用户基于隐私预算∈计算出扰动翻转概率
Figure BDA0003195426260000051
并对独热向量中的每一位进行扰动翻转。之后将扰动后的独热向量x′发送给数据收集者,数据收集者将收到的独热向量x′逐位累加,并根据扰动翻转概率计算用户数据在数据域划分方式E0下的频率分布估计。其具体步骤如下:
1)用户基于数据域划分方式E0划分属性数据域D。对于m维属性,沿每个维度同时进行均匀划分,将数据域D划分成Bm个相同大小的子数据域。例如,用户属性集合A具有3个属性,每个属性的数据域都是D=[0,127],数据域划分即是对3个属性组成的三维空间D3=[0,127×[0,127×[0,127沿三个维度切分为8个边长为64的子数据域。
2)用户将自己的真实数据进行独热编码。例如,用户数据是(0,17,21,这三个数据组成的空间点处在[0,63×[0,63×[0,63子数据域内,所以该用户数据经过独热编码为x=(1,0,0,0,0,0,0,0。
3)用户对独热编码x进行逐位翻转。用户以p的概率将1翻转为0,以q的概率将0翻转为1,经过翻转后形成向量x′,并将x′发送给数据收集者。
4)数据收集者将该组用户上传的扰动后独热向量进行逐位累加,并使用(2)式计算每一个子数据域内(对应独热编码中的某一位)频率估计值
Figure BDA0003195426260000052
最终得到在该数据域划分方式E0下的频率分布估计
Figure BDA0003195426260000053
Figure BDA0003195426260000054
其中v表示独热编码中的某一位,count[v]表示该位上x′累加结果,N表示该组的用户总数,p,q为翻转概率。
5)数据收集者将原始数据域D3作为根节点,切分得到的子数据域作为叶子节点构建一棵划分树T,并将子数据域频率估计值填写到对应的叶子节点。
第四步,数据收集者判断是否已经遍历所有的用户组。如果是,则用户信息收集完毕,执行第六步后向处理;如果否,则执行第五步产生新的数据域划分方式。
第五步,数据收集者根据数据域划分方式E0和对应的频率分布估计
Figure BDA0003195426260000061
产生新的数据域划分方式E1,并执行第三步。其具体步骤如下:
1)数据收集者将划分方式E0下每一个子数据域的频率估计值
Figure BDA0003195426260000062
与划分阈值θ进行比较。
2)如果子数据域频率估计值大于划分阈值θ,则对该子数据域沿三个维度切分为8个更小的子数据域,作为切分前子数据域的叶子节点添加到划分树T中。如果子数据域频率估计值小于等于划分阈值θ,则该子数据域不再进行划分。
3)划分阈值θ由(3)式得到,其中B为分段数,
Figure BDA0003195426260000063
Figure BDA0003195426260000064
4)当E0下所有子数据域的频率估计值与划分阈值θ完成比较,并完成进一步划分后,得到新的数据域划分方式E1
5)数据收集者将新的数据域划分方式E1发送给剩余的某一组用户,循环执行第三步到第五步。
第六步,数据收集者获得不同数据域划分方式{E0,E1,...,Ec-1}下的用户数据频率分布估计
Figure BDA0003195426260000065
并通过非负化处理、加权平均和数据补全三个步骤,得到最终用于回答范围查询任务的多粒度频率分布估计完整划分树T,其具体步骤如下:
1)非负化处理,频率分布估计
Figure BDA0003195426260000066
内的频率值应满足两个约束条件:频率值之和等于1且频率值大于0。非负化处理首先将频率分布估计
Figure BDA0003195426260000067
内为负的频率值变为0,之后将偏置δ添加分布估计
Figure BDA0003195426260000068
内的每个频率值上来保持总和为1。如处理后的分布估计
Figure BDA0003195426260000069
还存在负值,那么重复上述操作直到分布估计
Figure BDA00031954262600000610
内最小值为0(由于计算机计算精度限制,重复上述操作直到分布估计
Figure BDA00031954262600000611
内最小值与0之差小于计算精度即可结束非负化处理),经过非负化处理后的分布估计
Figure BDA00031954262600000612
如(4)式所示:
Figure BDA00031954262600000613
2)加权平均,数据收集者计算划分树T中非叶节点n频率估计值与其子节点u频率估计值之和的加权平均值,更新节点n的频率估计值。更新过程如(5)式所示:
Figure BDA0003195426260000071
其中
Figure BDA0003195426260000072
表示更新之后的频率估计值,
Figure BDA0003195426260000073
由节点n和其子节点u的扰动方差
Figure BDA0003195426260000074
计算得到。
3)数据补全,数据收集者将划分树T中的节点补全,形成一棵完全的B3叉树。补全过程从原始数据域D3根节点开始,缺少的节点采用其最邻近的父节点频率估计值的
Figure BDA0003195426260000075
作为其频率估计值。完成后得到完整划分树T。
第七步,回答范围查询分析任务。例如,单维范围查询分析任务是统计某一个数据维度[a,b]范围内的用户数据频率值,多维范围查询分析任务是统计某几个数据维度[a1,b1],[a2,b2],...,[am,bm]围成的高维立方体内的用户数据频率值。数据收集者在收到范围查询分析任务后,从完整划分树T根节点向叶子节点搜索,找到恰好覆盖查询空间的最少节点集合,并累加找到的节点频率估计值作为查询结果。
对比以上步骤配以实验分析如下:
为了验证本发明方法的有效性,下面使用真实数据集(Loan,Financial,BlackFriday,Salaries)和模拟数据集(Laplacian,Gaussian)进行实验,说明本发明所提方法在提升数据可用性上的良好性能。
实验环境:Intel Xeon Platinum 8269@2.5GHz,32GB内存,Ubuntu操作系统。实验所涉及代码使用Python语言编写。
将本发明提出的基于划分阈值θ的保隐私自适应多粒度频率分布估计算法,与相关领域最新算法(Uni,CALM,HIO,DHT,HDG)进行查询精度对比。每组实验设置下随机生成200个范围查询任务,并重复实验20次,统计20次实验查询结果均方误差MSE的平均值、方差以及95%置信区间,将本发明方法记为AHEAD,结果如图2和图3所示,实验表明,相比于同领域最新算法,本发明方法可以有效降低扰动过程对于真实数据可用性的影响,在相同的隐私保护程度下获得更高的查询结果精度。
在不同的数据集、隐私预算、查询维度条件下,如图2和图3所示,分段数B=2(AHEAD_B2)相比于分段数B=4(AEHAD_B4),均取得更小的查询误差MSE。
在不同的数据集、隐私预算下,本发明方法所提出的划分阈值θ设定方法均能得到较低的查询精度,结果如图4所示,验证了所提出划分阈值θ设定方法对于降低发布数据的误差具有显著的优化效果。
本发明提出的自适应数据域划分方法,通过比较子数据域频率估计值和划分阈值的大小,确定是否进一步划分子数据域,相比现有算法对于数据域均匀划分更加灵活。其次,本发明通过设置合理的分段数B和划分阈值θ可以有效降低发布数据的查询误差率,增加了数据发布的可用性,适合应用于不同维度场景下的保隐私范围查询分析任务。
实施例
方法执行过程中包含两类角色:数据收集者和用户。
数据收集者一般是需要收集用户数据并对用户数据进行分析的服务提供商,用户是享受数据收集者提供服务的目标群体。数据收集者由于业务需求,计划采集用户敏感信息,例如年龄、收入、行业、家庭人口总数等数据。因为上述数据属于个人隐私数据,数据收集者需要在保证用户数据隐私的前提下进行收集。数据收集者和用户可以利用本发明提出的方法进行数据的交互,用户上传数据前对数据进行扰动处理,保证了用户数据的隐私。数据收集者在收到所用用户上传数据后进行非负化、加权平均、数据补全操作,并将用户数据聚合结果储存成一棵完整多叉树,从完整多叉树中查找节点以完成用户数据范围查询分析。
以上所述仅为本说明书一个或多个实施例的较佳实施例而已,并不用以限制本说明书一个或多个实施例,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例保护的范围之内。

Claims (10)

1.一种基于自适应数据域划分的保隐私范围查询方法,其特征在于,包括以下步骤:
(1)数据收集者设置待收集用户属性集合、数据域、数据域划分方式、隐私预算,计算总用户组数,将待收集用户属性集合、数据域、隐私预算和总用户组数发送给每个用户;
(2)用户随机选择一个用户组,并将组号返回给数据收集者;
(3)数据收集者随机选择一个用户组,将初始数据域划分方式发送给该组的每个用户;用户根据初始数据域划分方式对用户属性的数据域进行划分,基于划分方式将具体属性值编码为独热向量,用户基于隐私预算计算出扰动翻转概率,对独热向量中的每一位进行扰动翻转,将扰动后的独热向量发送给数据收集者;数据收集者将收到的独热向量逐位累加,并根据扰动翻转概率计算用户数据在初始数据域划分方式下的频率分布估计;数据收集者将原始数据域作为根节点,切分得到的子数据域作为叶子节点构建划分树,并将子数据域频率估计值填写到对应的叶子节点;
(4)数据收集者判断是否已经遍历所有的用户组,如果是,则用户信息收集完毕,执行步骤(6),否则执行步骤(5);
(5)数据收集者根据数据域划分方式和对应的频率分布估计,产生新的数据域划分方式,将新的数据域划分方式发送给剩余的某一组用户,循环执行步骤(3)到步骤(5);
(6)数据收集者获得不同数据域划分方式下的用户数据频率分布估计,并通过非负化处理、加权平均和数据补全,得到最终用于回答范围查询任务的多粒度频率分布估计完整划分树;
(7)数据收集者收到范围查询分析任务后,从完整划分树根节点向叶子节点搜索,找到恰好覆盖查询空间的最少节点集合,并累加找到的节点频率估计值作为查询结果。
2.根据权利要求1所述的一种基于自适应数据域划分的保隐私范围查询方法,其特征在于,所述步骤(1)中,所述数据域划分方式采用均匀划分,划分段数B取2。
3.根据权利要求1所述的一种基于自适应数据域划分的保隐私范围查询方法,其特征在于,所述步骤(1)中,所述总用户组数c通过公式c=logB|D|计算得到,D表示数据域,B表示划分段数,在设置数据域D时,需要满足数据域尺寸|D|为B的整数次幂。
4.根据权利要求1所述的一种基于自适应数据域划分的保隐私范围查询方法,其特征在于,所述步骤(3)中,用户基于初始数据域划分方式E0划分属性数据域D,对于m维属性,沿每个维度同时进行均匀划分,将数据域D划分成Bm个相同大小的子数据域,B表示划分段数。
5.根据权利要求1所述的一种基于自适应数据域划分的保隐私范围查询方法,其特征在于,所述步骤(3)中,数据收集者将该组用户上传的扰动后的独热向量x进行逐位累加,计算每个子数据域内的频率估计值
Figure FDA0004110709010000021
计算公式如下:
Figure FDA0004110709010000022
其中v表示独热向量中的某一位,count[v]表示该位上x累加结果,N表示该组的用户总数,p,q为翻转概率。
6.根据权利要求5所述的一种基于自适应数据域划分的保隐私范围查询方法,其特征在于,所述步骤(5)具体为:数据收集者将初始数据域划分方式E0下每个子数据域的频率估计值
Figure FDA0004110709010000023
与划分阈值θ进行比较;如果子数据域频率估计值大于划分阈值θ,则对该子数据域沿m个维度继续切分为更小的子数据域,作为切分前子数据域的叶子节点添加到划分树中,否则该子数据域不再进行划分;当E0下所有子数据域的频率估计值与划分阈值θ完成比较,并完成进一步划分后,得到新的数据域划分方式E1;数据收集者将新的数据域划分方式E1发送给剩余的某一组用户,执行步骤(3)。
7.根据权利要求6所述的一种基于自适应数据域划分的保隐私范围查询方法,其特征在于,所述划分阈值θ由以下公式计算得到:
Figure FDA0004110709010000024
其中B为划分段数,
Figure FDA0004110709010000025
∈为隐私预算,c为总用户组数。
8.根据权利要求1所述的一种基于自适应数据域划分的保隐私范围查询方法,其特征在于,所述步骤(6)中,所述非负化处理具体为:频率分布估计
Figure FDA0004110709010000026
内的频率值应满足频率值之和等于1且频率值大于0,非负化处理首先将频率分布估计
Figure FDA0004110709010000027
内为负的频率值变为0,之后将偏置δ添加分布估计
Figure FDA0004110709010000028
内的每个频率值上来保持总和为1,如处理后的分布估计
Figure FDA0004110709010000029
还存在负值,那么重复上述操作直到分布估计
Figure FDA00041107090100000210
内最小值为0。
9.根据权利要求5所述的一种基于自适应数据域划分的保隐私范围查询方法,其特征在于,所述步骤(6)中,所述加权平均具体为:数据收集者计算划分树中非叶节点n频率估计值与其子节点u频率估计值之和的加权平均值,更新节点n的频率估计值,更新公式如下:
Figure FDA00041107090100000211
其中
Figure FDA00041107090100000212
表示更新之后的频率估计值,
Figure FDA00041107090100000213
由节点n和其子节点u的扰动方差
Figure FDA00041107090100000214
计算得到。
10.根据权利要求1所述的一种基于自适应数据域划分的保隐私范围查询方法,其特征在于,所述步骤(6)中,所述数据补全具体为:从原始数据域根节点开始,缺少的节点采用其最邻近的父节点频率估计值的
Figure FDA00041107090100000215
作为其频率估计值,形成一棵完全的Bm叉树,m为属性维度。
CN202110889786.7A 2021-08-04 2021-08-04 基于自适应数据域划分的保隐私范围查询方法 Active CN113722556B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110889786.7A CN113722556B (zh) 2021-08-04 2021-08-04 基于自适应数据域划分的保隐私范围查询方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110889786.7A CN113722556B (zh) 2021-08-04 2021-08-04 基于自适应数据域划分的保隐私范围查询方法

Publications (2)

Publication Number Publication Date
CN113722556A CN113722556A (zh) 2021-11-30
CN113722556B true CN113722556B (zh) 2023-05-02

Family

ID=78674816

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110889786.7A Active CN113722556B (zh) 2021-08-04 2021-08-04 基于自适应数据域划分的保隐私范围查询方法

Country Status (1)

Country Link
CN (1) CN113722556B (zh)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11010637B2 (en) * 2019-01-03 2021-05-18 International Business Machines Corporation Generative adversarial network employed for decentralized and confidential AI training
US20210182343A1 (en) * 2019-12-13 2021-06-17 Microsoft Technology Licensing, Llc Scalable and Resource-Efficient Extraction of Data from Network-Accessible Documents
CN112487437B (zh) * 2020-11-17 2023-04-18 北京航空航天大学 一种基于用户界面特征的安卓仿冒应用检测方法及装置
CN112884480B (zh) * 2021-03-31 2024-02-02 中国工商银行股份有限公司 异常交易识别模型的构造方法、装置、计算机设备和介质

Also Published As

Publication number Publication date
CN113722556A (zh) 2021-11-30

Similar Documents

Publication Publication Date Title
Prakash et al. IoT device friendly and communication-efficient federated learning via joint model pruning and quantization
Moore The Anchors Hierachy: Using the triangle inequality to survive high dimensional data
Pagès et al. Functional quantization for numerics with an application to option pricing
CN115688913B (zh) 一种云边端协同个性化联邦学习方法、系统、设备及介质
CN111159483B (zh) 一种基于张量计算的社交网络图摘要的生成方法
CN113569286B (zh) 基于本地化差分隐私的频繁项集挖掘方法
CN115098882B (zh) 基于增量学习的本地差分隐私的多维数据发布方法及系统
Sadik et al. DBOD-DS: Distance based outlier detection for data streams
CN118116554B (zh) 一种基于大数据处理的医学影像缓存处理方法
CN115879152A (zh) 基于最小均方误差准则的自适应隐私保护方法、装置及系统
CN113240111A (zh) 基于离散余弦变换通道重要性得分的剪枝方法
Abdullah et al. Spectral approaches to nearest neighbor search
Wang et al. QoS prediction of web services based on reputation-aware network embedding
CN115481415A (zh) 基于纵向联邦学习的通信成本优化方法、系统、设备及介质
CN114186518A (zh) 一种集成电路良率估算方法及存储器
CN113076319B (zh) 基于离群值检测技术和位图索引的动态数据库填充方法
CN113722556B (zh) 基于自适应数据域划分的保隐私范围查询方法
CN117574421A (zh) 基于梯度动态裁剪的联邦数据分析系统及方法
CN113722558B (zh) 基于自适应数据域划分的保隐私高维数据范围查询方法
CN116318856A (zh) 一种基于差分隐私和联邦学习的模型参数优化方法和系统
CN115033915A (zh) 一种基于生成对抗网络的敏感标签轨迹数据差分隐私发布方法
CN107844461A (zh) 一种基于广义n体问题的高斯过程回归计算方法
CN114692205A (zh) 一种面向加权社交网络隐私保护的图匿名方法
Wu et al. Mining geographic episode association patterns of abnormal events in global earth science data
Ma et al. Differentiable Network Pruning via Polarization of Probabilistic Channelwise Soft Masks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant