CN112487472B - 基于交互式查询的自适应差分隐私预算分配方法及其系统 - Google Patents
基于交互式查询的自适应差分隐私预算分配方法及其系统 Download PDFInfo
- Publication number
- CN112487472B CN112487472B CN202011237987.0A CN202011237987A CN112487472B CN 112487472 B CN112487472 B CN 112487472B CN 202011237987 A CN202011237987 A CN 202011237987A CN 112487472 B CN112487472 B CN 112487472B
- Authority
- CN
- China
- Prior art keywords
- query
- attribute
- historical
- privacy budget
- current
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 230000002452 interceptive effect Effects 0.000 title claims abstract description 42
- 238000007781 pre-processing Methods 0.000 claims abstract description 17
- 230000007246 mechanism Effects 0.000 claims abstract description 11
- 238000004364 calculation method Methods 0.000 claims description 33
- 230000003044 adaptive effect Effects 0.000 claims description 21
- 230000008569 process Effects 0.000 claims description 14
- 238000004422 calculation algorithm Methods 0.000 claims description 13
- 238000010219 correlation analysis Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 5
- 238000012098 association analyses Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 230000015654 memory Effects 0.000 description 16
- XUFXOAAUWZOOIT-SXARVLRPSA-N (2R,3R,4R,5S,6R)-5-[[(2R,3R,4R,5S,6R)-5-[[(2R,3R,4S,5S,6R)-3,4-dihydroxy-6-methyl-5-[[(1S,4R,5S,6S)-4,5,6-trihydroxy-3-(hydroxymethyl)-1-cyclohex-2-enyl]amino]-2-oxanyl]oxy]-3,4-dihydroxy-6-(hydroxymethyl)-2-oxanyl]oxy]-6-(hydroxymethyl)oxane-2,3,4-triol Chemical compound O([C@H]1O[C@H](CO)[C@H]([C@@H]([C@H]1O)O)O[C@H]1O[C@@H]([C@H]([C@H](O)[C@H]1O)N[C@@H]1[C@@H]([C@@H](O)[C@H](O)C(CO)=C1)O)C)[C@@H]1[C@@H](CO)O[C@@H](O)[C@H](O)[C@H]1O XUFXOAAUWZOOIT-SXARVLRPSA-N 0.000 description 3
- 229960002632 acarbose Drugs 0.000 description 3
- XUFXOAAUWZOOIT-UHFFFAOYSA-N acarviostatin I01 Natural products OC1C(O)C(NC2C(C(O)C(O)C(CO)=C2)O)C(C)OC1OC(C(C1O)O)C(CO)OC1OC1C(CO)OC(O)C(O)C1O XUFXOAAUWZOOIT-UHFFFAOYSA-N 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- XZWYZXLIPXDOLR-UHFFFAOYSA-N metformin Chemical compound CN(C)C(=N)NC(N)=N XZWYZXLIPXDOLR-UHFFFAOYSA-N 0.000 description 2
- 229960003105 metformin Drugs 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6227—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供的基于交互式查询的自适应差分隐私预算分配方法及其系统,涉及数据隐私保护技术领域,通过预处理查询数据库减少无关属性的数据量,对该预处理后的查询数据库计算极大频繁项集,根据极大频繁项集查找当前查询属性在历史查询记录中的关联属性;计算当前查询属性和任一关联属性的杰卡德系数,根据杰卡德系数计算当前查询属性查询时能分配的差分隐私保护参数上界;当隐私预算参数阈值分配不够或计算的上界小于设定的每次查询分配的隐私预算参数下界时,通过指数机制从关联属性中选取一关联属性的查询结果作为当前查询的查询结果,即当前查询属性不再分配隐私预算。本发明采用量化关联属性对隐私泄露的程度,合理分配隐私预算。
Description
技术领域
本发明涉及数据隐私保护技术领域,具体涉及一种基于交互式查询的自适应差分隐私预算分配方法及其系统。
背景技术
差分隐私保护是一种基于数据失真的隐私保护技术,通过在原始数据集或统计结果中添加噪声扰来实现隐私保护,同时保持数据集中的某些数据属性或统计属性不变。差分隐私保护技术确保了数据集中单个记录的变化不会影响查询结果,即使攻击者具有无限背景知识也可以保证邻近数据集的查询具有概率不可区分性。
差分隐私保护根据实现环境不同可分为两大类:交互式差分隐私和非交互式差分隐私。交互式差分隐私保护机制是指用户通过查询接口向数据拥有者递交查询请求,数据拥有者根据查询请求在原始数据集中进行查询,然后将查询结果添加噪声扰动后反馈给用户。非交互式差分隐私保护机制是指数据管理者直接发布一个满足差分隐私保护后的发布数据集,再依据用户的请求对发布数据集进行查询操作。
差分隐私的保护参数ε代表隐私保护强度,该参数的分配对整个隐私保护系统的安全起到关键作用,当预算分配超过隐私阈值则数据隐私保护程度将会大大减低。传统的隐私预算分配基于经验分配,通常给定一个分配序列,查询过程中不随其他因素变动,所以对于数据库交互式查询中因关联属性查询而导致的隐私预算与给定保护参数ε溢出问题未能解决,导致数据隐私泄露。该问题具体包括两种情况:1)现有隐私预算分配策略限制了交互式查询次数,不合理的分配策略导致查询次数低于期望值,降低了系统的可用性;(2)关联属性查询可能导致的隐私预算ε的分配溢出。
发明内容
本发明目的在于提供一种基于交互式查询的自适应差分隐私预算分配方法及其系统,通过量化当前查询属性的关联属性,利用关联属性的历史查询结果估计当前查询结果,提高差分隐私预算分配方法可用性,合理的分配隐私预算参数,降低隐私泄露的风险。
为达成上述目的,本发明提出如下技术方案:一种基于交互式查询的自适应差分隐私预算分配方法,包括以下步骤:
步骤一:对查询数据库,设定查询数据库任一次查询的隐私预算参数阈值ε和任一次对查询数据库进行属性查询分配的隐私预算参数下界εmin,定义用于存储查询数据库历史查询数据的历史查询集S(q′,r),其中,q′为查询数据库中的历史查询属性,r为对应于历史查询属性的历史查询结果;
步骤二:对查询数据库中属性进行预处理,减少查询冗余属性项对当前查询属性分配隐私预算参数的开销;
步骤三:采用关联分析算法计算查询数据库2至N项属性的极大频繁项集F,F=fm,m∈[2,N],fm表示在数据集上使用关联分析算法计算得到的m项极大频繁项集,N不小于2;
步骤四:采用极大频繁项集F计算历史查询集S(q′,r)中和当前查询属性q关联的历史查询属性,将由关联的所有历史查询属性构成的集合记为q的历史关联属性集Q;
步骤五:计算当前查询属性q与历史关联属性集Q中任一历史查询属性的杰卡德相似系数;
步骤六:根据杰卡德相似系数计算当前查询能分配的隐私预算参数上界εmax;
步骤七:当隐私预算参数阈值ε耗尽或计算的当前查询属性能分配的隐私预算参数上界εmax小于设定的任一次对查询数据库进行属性查询分配的隐私预算参数下界εmin时,从历史关联属性集Q中使用指数机制选取一历史查询属性q′,根据历史查询集S(q′,r)返回对应于该历史查询属性q′的历史查询结果作为当前查询属性q的查询结果。
进一步的,所述步骤二对查询查询数据库中属性进行预处理的操作为对连续属性离散化,去除属性中的空属性值和单一属性值的属性项。
进一步的,所述步骤四中历史关联属性集Q的构建过程为:
将历史查询集S(q′,r)中所有历史查询属性与当前查询属性q做并集;若历史查询集S(q′,r)存在历史查询属性与当前查询属性q的并集结果为当前查询属性q,保留该历史查询属性至历史关联属性集Q中;若历史查询集S(q′,r)存在历史查询属性与当前查询属性q的并集结果不为当前查询属性q,但并集结果在查询数据库2至N项属性的极大频繁项集F中,则保留该历史查询属性至历史关联属性集Q中。
进一步的,定义历史关联属性集Q中任一历史查询属性为qi,则所述步骤五中当前查询属性q与历史查询属性qi的杰卡德相似系数Ji的计算过程如下:
1)当qi=q时,Ji=1;
2)当qi≠q时,计算当前查询属性q、历史查询属性qi、以及当前查询属性q和历史查询属性qi的并集在查询数据库2至N项属性的极大频繁项集F中的支持度计数y1、y2、x,
进一步的,所述步骤六中当前查询能分配的隐私预算参数上界εmax为:
其中,i∈[1,|Q|],|Q|表示历史关联属性集Q中历史查询属性的项数,εi为历史查询属性查询时分配的隐私预算参。
本发明还提供一种基于交互式查询的自适应差分隐私预算分配系统,包括:
定义模块,用于定义查询数据库任一次查询的隐私预算参数阈值ε和任一次对查询数据库进行属性查询分配的隐私预算参数下界εmin,以及用于存储查询数据库历史查询数据的历史查询集S(q′,r);其中,q′为查询数据库中的历史查询属性,r为对应于历史查询属性的历史查询结果;
预处理模块,用于对查询数据库中属性进行预处理,减少查询冗余属性项对当前查询属性分配隐私预算参数的开销;所述预处理模块的操作过程为对连续属性离散化,去除属性中的空属性值和单一属性值的属性项。
第一计算模块,用于根据关联分析算法计算查询数据库2至N项属性的极大频繁项集F;其中,F=fm,m∈[2,N],fm表示在数据集上使用关联分析算法计算得到的m项极大频繁项集,N不小于2;
第二计算模块,用于根据极大频繁项集F计算历史查询集S(q′,r)中和当前查询属性q关联的历史查询属性,将由关联的所有历史查询属性构成的集合记为q的历史关联属性集Q;
第三计算模块,用于计算当前查询属性q与历史关联属性集Q中任一历史查询属性的杰卡德相似系数;
第四计算模块,用于根据杰卡德相似系数计算当前查询属性能分配的隐私预算参数上界εmax;
判断模块,用于判断隐私预算参数阈值ε是否耗尽,以及计算的当前查询属性能分配的隐私预算参数上界εmax与设定的任一次对查询数据库进行属性查询分配的隐私预算参数下界εmin的大小;
查询结果返回模块,用于当隐私预算参数阈值ε耗尽或计算的当前查询属性能分配的隐私预算参数上界εmax小于设定的任一次对查询数据库进行属性查询分配的隐私预算参数下界εmin时,从历史关联属性集Q中使用指数机制选取一历史查询属性q′,根据历史查询集S(q′,r)返回对应于该历史查询属性q′的历史查询结果作为当前查询属性q的查询结果。
进一步的,所述第二计算模块根据极大频繁项集F计算历史查询集S(q′,r)中和当前查询属性q关联的历史查询属性的过程为:
将历史查询集S(q′,r)中所有历史查询属性与当前查询属性q做并集,保留历史查询集S(q′,r)中与当前查询属性q的并集结果为当前查询属性q、以及与当前查询属性q的并集结果不为当前查询属性q,但并集结果在查询数据库2至N项属性的极大频繁项集F中的历史查询属性构成历史关联属性集Q。
进一步的,所述第三计算模块计算当前查询属性q与历史关联属性集Q中任一历史查询属性的杰卡德相似系数的过程如下:
1)当qi=q时,Ji=1;
2)当qi≠q时,计算当前查询属性q、历史查询属性qi、以及当前查询属性q和历史查询属性qi的并集在查询数据库2至N项属性的极大频繁项集F中的支持度计数y1、y2、x,
进一步的,所述第四计算模块计算的当前查询属性能分配的隐私预算参数上界εmax为:
其中,i∈[1,|Q|],|Q|表示历史关联属性集Q中历史查询属性的项数,εi为历史查询属性查询时分配的隐私预算参。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被处理器执行时,实现如上述的基于交互式查询的自适应差分隐私预算分配方法。
由以上技术方案可知,本发明的技术方案提供的基于交互式查询的自适应差分隐私预算分配方法及其系统,获得了如下有益效果:
本发明提供的基于交互式查询的自适应差分隐私预算分配方法及其系统,涉及数据隐私保护技术领域,通过预处理查询数据库减少无关查询属性的数据量,然后在该预处理后查询数据库上计算极大频繁项集,根据极大频繁项集查找历史查询记录中与当前查询属性的关联属性;计算当前查询属性和任一关联属性的杰卡德系数,根据杰卡德系数计算当前查询属性查询时能分配的差分隐私保护参数上界;当隐私预算参数阈值分配不够或计算的上界小于设定的每次查询分配的隐私预算参数下界时,通过指数机制从当前查询属性的关联属性中选取一关联属性的查询结果作为当前查询的查询结果,返回给查询用户,即当前查询属性不分配隐私预算参数。本发明采用量化关联属性对隐私泄露的程度,合理的分配隐私预算参数。
本发明的方法及系统还具有如下有益效果:1)具有安全性高,通过分析历史查询记录,建立历史查询集,通过量化历史查询集,减低了差分隐私预算分配溢出的风险,降低数据隐私泄露的风险;2)可用性强,当隐私预算不够时,通过合理复用历史查询结果提高查询的可用性;3)采用本发明基于交互式查询的自适应隐私预算分配方法,提高了交互式查询的安全性和可用性,提高查询数据库的交互式查询次数。
应当理解,前述构思以及在下面更加详细地描述的额外构思的所有组合只要在这样的构思不相互矛盾的情况下都可以被视为本公开的发明主题的一部分。
结合附图从下面的描述中可以更加全面地理解本发明教导的前述和其他方面、实施例和特征。本发明的其他附加方面例如示例性实施方式的特征和/或有益效果将在下面的描述中显见,或通过根据本发明教导的具体实施方式的实践中得知。
附图说明
附图不意在按比例绘制。在附图中,在各个图中示出的每个相同或近似相同的组成部分可以用相同的标号表示。为了清晰起见,在每个图中,并非每个组成部分均被标记。现在,将通过例子并参考附图来描述本发明的各个方面的实施例,其中:
图1为本发明基于交互式查询的自适应差分隐私预算分配方法原理图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。除非另作定义,此处使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。
本发明专利申请说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。同样,除非上下文清楚地指明其它情况,否则单数形式的“一个”“一”或者“该”等类似词语也不表示数量限制,而是表示存在至少一个。“包括”或者“包含”等类似的词语意指出现在“包括”或者“包含”前面的元件或者物件涵盖出现在“包括”或者“包含”后面列举的特征、整体、步骤、操作、元素和/或组件,并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
基于现有技术中,交互式查询中因关联属性查询会导致多次查询时隐私预算参数分配会出现溢出问题,已知在隐私预算参数溢出后的查询数据接近真实结果,真实数据存在隐私泄露的现象,因此限制了交互式查询的次数。本发明旨在提出一种基于交互式查询的自适应差分隐私预算分配方法及其系统,通过量化当前查询属性的关联属性,实时计算当前查询属性可分配的隐私预算参数,当可能发生溢出风险时直接采用历史查询结果估计当前查询结果,减小隐私预算参数溢出的风险,避免数据隐私的泄漏。
下面结合附图所示的原理图,对本发明的基于交互式查询的自适应差分隐私预算分配方法及其系统作进一步具体介绍。
结合图1所示的实施例,基于交互式查询的自适应差分隐私预算分配方法,包括以下步骤:
步骤一:对查询数据库,设定查询数据库任一次查询的隐私预算参数阈值ε和任一次对查询数据库进行属性查询分配的隐私预算参数下界εmin,定义用于存储查询数据库历史查询数据的历史查询集S(q′,r),其中,q′为查询数据库中的历史查询属性,r为对应于历史查询属性的历史查询结果;
步骤二:对查询数据库中的属性进行预处理,包括对查询数据库中连续属性离散化,去除属性中的空属性值和单一属性值的属性项,减少查询冗余属性项对当前查询属性分配隐私预算参数的开销;
步骤三:采用关联分析算法计算查询数据库2至N项属性的极大频繁项集F,F=fm,m∈[2,N],fm表示在数据集上使用关联分析算法计算得到的m项极大频繁项集,N不小于2;
步骤四:采用极大频繁项集F计算历史查询集S(q′,r)中和当前查询属性q关联的历史查询属性,将由关联的所有历史查询属性构成的集合记为q的历史关联属性集Q;
步骤五:计算当前查询属性q与历史关联属性集Q中任一历史查询属性的杰卡德相似系数;
步骤六:根据杰卡德相似系数计算当前查询能分配的隐私预算参数上界εmax;
步骤七:当隐私预算参数阈值ε耗尽或计算的当前查询属性能分配的隐私预算参数上界εmax小于设定的任一次对查询数据库进行属性查询分配的隐私预算参数下界εmin时,从历史关联属性集Q中使用指数机制选取一历史查询属性q′,根据历史查询集S(q′,r)返回对应于该历史查询属性q′的历史查询结果作为当前查询属性q的查询结果。
其中,在步骤四中历史关联属性集Q的构建过程为:将历史查询集S(q′,r)中所有历史查询属性与当前查询属性q做并集;若历史查询集S(q′,r)存在历史查询属性与当前查询属性q的并集结果为当前查询属性q,保留该历史查询属性至历史关联属性集Q中;若历史查询集S(q′,r)存在历史查询属性与当前查询属性q的并集结果不为当前查询属性q,但并集结果在查询数据库2至N项属性的极大频繁项集F中,则保留该历史查询属性至历史关联属性集Q中。
然后在步骤五中,对历史关联属性集Q中任一历史查询属性为qi和当前查询属性q的杰卡德相似系数Ji的计算过程如下:1)当qi=q时,Ji=1;2)当qi≠q时,计算当前查询属性q、历史查询属性qi、以及当前查询属性q和历史查询属性qi的并集在查询数据库2至N项属性的极大频繁项集F中的支持度计数y1、y2、x,
最终,对于当前查询属性在查询时能分配的隐私预算参数上界εmax计算公式为:
其中,i∈[1,|Q|],|Q|表示历史关联属性集Q中历史查询属性的项数,εi为历史查询属性查询时分配的隐私预算参数。
具体实施例如下,表1示例了部分病人就诊信息。
表1就诊信息表
表2极大频繁项集F
假设对于上表1,任一次查询初始分配的隐私预算参数阈值ε=1,任一次对查询数据库进行属性查询分配的隐私预算参数下界εmin=0.01;对表1建立历史查询集S(q′,r),记录历史查询中的属性和结果,历史查询集S(q′,r)为{二甲双胍,4}、{夏怀*,3}、{[76-83],1}、{阿波糖片,3}、{阿波糖片,3}和{[84-92],2};对查询数据库离散化处理后,去除空属性和单一属性来减少数据量,便于减少关联分析算法的隐私预算开销,去除编号、就诊卡号;对病人查询数据库采用关联分析算法计算查询数据库2至N项属性的极大频繁项集F,如表2所示,其2项属性的极大频繁项包含于3项属性的极大频繁项内,此处不赘写。
利用极大频繁项集F在历史查询集S(q′,r)中搜索和当前查询属性集S(q′,r)相关联的属性集,假设当前查询属性集q为{夏怀*},根据方法步骤四构建历史关联属性集Q;具体步骤为:将当前查询属性集q和历史查询集S(q′,r)中的每个属性q′做并集,q′分别为{二甲双胍}、{夏怀*}、{[76-83]}、{阿波糖片}、{阿波糖片}和{[84-92]};若并集结果为q直接保留{夏怀*},保留该历史查询属性q′;若并集结果不为q但在极大频繁项集F中存在,则保留该历史查询属性q′,结果为{夏怀*}、{夏怀*,阿波糖片}、{夏怀*,阿波糖片}和{夏怀*,[84-92]},即历史关联属性集Q包含4个元素。
结合表1计算历史关联属性集Q中任一元素和q{夏怀*}的杰卡德系数J,分别为步骤六利用杰卡德系数表征隐私泄露风险,以此来合理分配隐私预算。
对于历史查询集S(q′,r),其历史每次查询时分配的隐私预算参数可直接获得,假设6次查询分配的隐私预算参数数值如表3所示,则步骤六计算当前查询属性q能分配的隐私预算参数上界εmax计算如下:
表3历史查询属性分配的隐私预算εi
已知当前查询隐私预算参数阈值ε,历史关联属性中隐私预算分配分别为0.5、0.4、0.01和0.3,则计算下一次隐私分配上界 由于0.0425>0.01,即当前查询属性可分配区间{0.01,0.0425}中的任意数值。
假设初始设定的设定的任一次对查询数据库进行属性查询分配的隐私预算参数下界εmin=0.05,则0.0425<0.05,若隐私预算参数阈值继续分配肯定会发生溢出,导致真实数据泄露。因此,直接从关联属性集中经指数机制选取一个历史查询属性的查询结果作为当前查询属性的查询结果,不再对当前查询属性分配隐私预算参数,避免了总隐私预算溢出的问题,也不限制查询次数。
本发明另一实施例提供了一种基于交互式查询的自适应差分隐私预算分配系统,该系统采用上述的基于交互式查询的自适应差分隐私预算分配方法分配每次查询的隐私预算参数。
示例性的,基于交互式查询的自适应差分隐私预算分配方法可以被分割成多个模块,多个模块被存储在存储器中,由处理器执行完成本发明。所述多个模块或单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述基于交互式查询的自适应差分隐私预算分配方法在基于交互式查询的自适应差分隐私预算分配系统中的执行过程。例如,所述基于交互式查询的自适应差分隐私预算分配方法可以被分割成定义模块、预处理模块、第一计算模块、第二计算模块、第三计算模块、第四计算模块和判断模块,各模块的具体功能如下:
定义模块,用于定义查询数据库任一次查询的隐私预算参数阈值ε和任一次对查询数据库进行属性查询分配的隐私预算参数下界εmin,以及用于存储查询数据库历史查询数据的历史查询集S(q′,r);其中,q′为查询数据库中的历史查询属性,r为对应于历史查询属性的历史查询结果;
预处理模块,用于对查询数据库中属性进行预处理,减少查询冗余属性项对当前查询属性分配隐私预算参数的开销;所述预处理模块的操作过程为对连续属性离散化,去除属性中的空属性值和单一属性值的属性项。
第一计算模块,用于根据关联分析算法计算查询数据库2至N项属性的极大频繁项集F;其中,F=fm,m∈[2,N],fm表示在数据集上使用关联分析算法计算得到的m项极大频繁项集,N不小于2;
第二计算模块,用于根据极大频繁项集F计算历史查询集S(q′,r)中和当前查询属性q关联的历史查询属性,将由关联的所有历史查询属性构成的集合记为q的历史关联属性集Q;
第三计算模块,用于计算当前查询属性q与历史关联属性集Q中任一历史查询属性的杰卡德相似系数;
第四计算模块,用于根据杰卡德相似系数计算当前查询属性能分配的隐私预算参数上界εmax;
判断模块,用于判断隐私预算参数阈值ε是否耗尽,以及计算的当前查询属性能分配的隐私预算参数上界εmax与设定的任一次对查询数据库进行属性查询分配的隐私预算参数下界εmin的大小;
查询结果返回模块,用于当隐私预算参数阈值ε耗尽或计算的当前查询属性能分配的隐私预算参数上界εmax小于设定的任一次对查询数据库进行属性查询分配的隐私预算参数下界εmin时,从历史关联属性集Q中使用指数机制选取一历史查询属性q′,根据历史查询集S(q′,r)返回对应于该历史查询属性q′的历史查询结果作为当前查询属性q的查询结果。
具体实施时,第二计算模块的计算过程为:将历史查询集S(q′,r)中所有历史查询属性与当前查询属性q做并集,保留历史查询集S(q′,r)中与当前查询属性q的并集结果为当前查询属性q、以及与当前查询属性q的并集结果不为当前查询属性q,但并集结果在查询数据库2至N项属性的极大频繁项集F中的历史查询属性构成历史关联属性集Q。
第三计算模块计算杰卡德相似系数的过程为:1)当qi=q时,Ji=1;2)当qi≠q时,计算当前查询属性q、历史查询属性qi、以及当前查询属性q和历史查询属性qi的并集在查询数据库2至N项属性的极大频繁项集F中的支持度计数y1、y2、x,
结合第三计算模块的计算结果,第四计算模块计算的当前查询属性能分配的隐私预算参数上界εmax为:
其中,i∈[1,|Q|],|Q|表示历史关联属性集Q中历史查询属性的项数,εi为历史查询属性查询时分配的隐私预算参。
上述实施例公开的基于交互式查询的自适应差分隐私预算分配系统,可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备系统。所述基于交互式查询的自适应差分隐私预算分配系统可包括,但不仅限于,处理器、存储器。
所述处理器可以是自身车辆的中央处理单元,还可以是其他通用处理器、数字信号处理器、专用集成电路、现成可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器时所述基于交互式查询的自适应差分隐私预算分配系统的控制中心,利用各种接口和线路连接整个基于交互式查询的自适应差分隐私预算分配系统的各个模块。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施例中的基于交互式查询的自适应差分隐私预算分配方法对应的程序指令/模块,处理器通过运行存储在存储器的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例中的基于交互式查询的自适应差分隐私预算分配方法。
存储器可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器所创建的数据等。此外,存储器优选但不限于高速随机存取存储器,例如,还可以是非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器还可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明公开的基于交互式查询的自适应差分隐私预算分配方法作为计算机程序一软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述方法实施例的步骤和结果。其中,存储介质可为磁碟、光盘、只读存储记忆体、随机存储记忆体、快闪存储器、硬盘或固态硬盘等;存储介质还可以包括上述种类的存储器的组合。
虽然本发明已以较佳实施例揭露如上,然其并非用以限定本发明。本发明所属技术领域中具有通常知识者,在不脱离本发明的精神和范围内,当可作各种的更动与润饰。因此,本发明的保护范围当视权利要求书所界定者为准。
Claims (4)
1.一种基于交互式查询的自适应差分隐私预算分配方法,其特征在于,包括以下步骤:
步骤一:对查询数据库,设定查询数据库任一次查询的隐私预算参数阈值ε和任一次对查询数据库进行属性查询分配的隐私预算参数下界εmin,定义用于存储查询数据库历史查询数据的历史查询集S(q′,r),其中,q′为查询数据库中的历史查询属性,r为对应于历史查询属性的历史查询结果;
步骤二:对查询数据库中的属性进行预处理,减少查询冗余属性项对当前查询属性分配隐私预算参数的开销;
步骤三:采用关联分析算法计算查询数据库2至N项属性的极大频繁项集F,F=fm,m∈[2,N],fm表示在数据集上使用关联分析算法计算得到的m项极大频繁项集,N不小于2;
步骤四:采用极大频繁项集F计算历史查询集S(q′,r)中和当前查询属性q关联的历史查询属性,将由关联的所有历史查询属性构成的集合记为q的历史关联属性集Q;
步骤五:计算当前查询属性q与历史关联属性集Q中任一历史查询属性的杰卡德相似系数;
步骤六:根据杰卡德相似系数计算当前查询能分配的隐私预算参数上界εmax;
步骤七:当隐私预算参数阈值ε耗尽或计算的当前查询属性能分配的隐私预算参数上界εmax小于设定的任一次对查询数据库进行属性查询分配的隐私预算参数下界εmin时,从历史关联属性集Q中使用指数机制选取一历史查询属性q′,根据历史查询集S(q′,r)返回对应于该历史查询属性q′的历史查询结果作为当前查询属性q的查询结果;
其中,所述步骤四中历史关联属性集Q的构建过程为:
将历史查询集S(q′,r)中所有历史查询属性与当前查询属性q做并集;若历史查询集S(q′,r)存在历史查询属性与当前查询属性q的并集结果为当前查询属性q,保留该历史查询属性至历史关联属性集Q中;若历史查询集S(q′,r)存在历史查询属性与当前查询属性q的并集结果不为当前查询属性q,但并集结果在查询数据库2至N项属性的极大频繁项集F中,则保留该历史查询属性至历史关联属性集Q中;
定义历史关联属性集Q中任一历史查询属性为qi,则所述步骤五中当前查询属性q与历史查询属性qi的杰卡德相似系数Ji的计算过程如下:
1)当qi=q时,Ji=1;
2)当qi≠q时,计算当前查询属性q、历史查询属性qi、以及当前查询属性q和历史查询属性qi的并集在查询数据库2至N项属性的极大频繁项集F中的支持度计数y1、y2、x,
所述步骤六中当前查询能分配的隐私预算参数上界εmax为:
其中,i∈[1,|Q|],|Q|表示历史关联属性集Q中历史查询属性的项数,εi为历史查询属性查询时分配的隐私预算参数。
2.根据权利要求1所述的基于交互式查询的自适应差分隐私预算分配方法,其特征在于,所述步骤二对查询数据库中属性进行预处理的操作为对连续属性离散化,去除查询属性中的空属性值和单一属性值的属性项。
3.一种基于交互式查询的自适应差分隐私预算分配系统,其特征在于,包括:
定义模块,用于定义查询数据库任一次查询的隐私预算参数阈值ε和任一次对查询数据库进行属性查询分配的隐私预算参数下界εmin,以及用于存储数据库历史查询数据的历史查询集S(q′,r);其中,q′为查询数据库中的历史查询属性,r为对应于历史查询属性的历史查询结果;
预处理模块,用于对查询数据库中属性进行预处理,减少查询冗余属性项对当前查询属性分配隐私预算参数的开销;所述预处理模块的操作过程为对连续属性离散化,去除属性中的空属性值和单一属性值的属性项;
第一计算模块,用于根据关联分析算法计算查询数据库2至N项属性的极大频繁项集F;其中,F=fm,m∈[2,N],fm表示在数据集上使用关联分析算法计算得到的m项极大频繁项集,N不小于2;
第二计算模块,用于根据极大频繁项集F计算历史查询集S(q′,r)中和当前查询属性q关联的历史查询属性,将由关联的所有历史查询属性构成的集合记为q的历史关联属性集Q;
第三计算模块,用于计算当前查询属性q与历史关联属性集Q中任一历史查询属性的杰卡德相似系数;
第四计算模块,用于根据杰卡德相似系数计算当前查询属性能分配的隐私预算参数上界εmax;
判断模块,用于判断隐私预算参数阈值ε是否耗尽,以及计算的当前查询属性能分配的隐私预算参数上界εmax与设定的任一次对查询数据库进行属性查询分配的隐私预算参数下界εmin的大小;
查询结果返回模块,用于当隐私预算参数阈值ε耗尽或计算的当前查询属性能分配的隐私预算参数上界εmax小于设定的任一次对查询数据库进行属性查询分配的隐私预算参数下界εmin时,从历史关联属性集Q中使用指数机制选取一历史查询属性q′,根据历史查询集S(q′,r)返回对应于该历史查询属性q′的历史查询结果作为当前查询属性q的查询结果;
所述第二计算模块根据极大频繁项集F计算历史查询集S(q′,r)中和当前查询属性q关联的历史查询属性的过程为:
将历史查询集S(q′,r)中所有历史查询属性与当前查询属性q做并集,保留历史查询集S(q′,r)中与当前查询属性q的并集结果为当前查询属性q、以及与当前查询属性q的并集结果不为当前查询属性q,但并集结果在查询数据库2至N项属性的极大频繁项集F中的历史查询属性构成历史关联属性集Q;
所述第三计算模块计算当前查询属性q与历史关联属性集Q中任一历史查询属性的杰卡德相似系数的过程如下:
1)当qi=q时,Ji=1;
2)当qi≠q时,计算当前查询属性q、历史查询属性qi、以及当前查询属性q和历史查询属性qi的并集在查询数据库2至N项属性的极大频繁项集F中的支持度计数y1、y2、x,
所述第四计算模块计算的当前查询属性能分配的隐私预算参数上界εmax为:
其中,i∈[1,|Q|],|Q|表示历史关联属性集Q中历史查询属性的项数,εi为历史查询属性查询时分配的隐私预算参数。
4.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1-2任一项所述的基于交互式查询的自适应差分隐私预算分配方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011237987.0A CN112487472B (zh) | 2020-11-09 | 2020-11-09 | 基于交互式查询的自适应差分隐私预算分配方法及其系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011237987.0A CN112487472B (zh) | 2020-11-09 | 2020-11-09 | 基于交互式查询的自适应差分隐私预算分配方法及其系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112487472A CN112487472A (zh) | 2021-03-12 |
CN112487472B true CN112487472B (zh) | 2023-11-17 |
Family
ID=74929115
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011237987.0A Active CN112487472B (zh) | 2020-11-09 | 2020-11-09 | 基于交互式查询的自适应差分隐私预算分配方法及其系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112487472B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113032399B (zh) * | 2021-03-30 | 2022-08-30 | 北京邮电大学 | 一种数据处理方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108537055A (zh) * | 2018-03-06 | 2018-09-14 | 南京邮电大学 | 一种数据查询隐私保护的隐私预算分配和数据发布方法及其系统 |
CN110633285A (zh) * | 2019-09-26 | 2019-12-31 | 哈尔滨工程大学 | 一种满足差分隐私的不确定数据频繁项集挖掘方法 |
CN111414641A (zh) * | 2020-03-13 | 2020-07-14 | 中国科学院信息工程研究所 | 一种基于采样的个性化差分隐私保护方法及系统 |
-
2020
- 2020-11-09 CN CN202011237987.0A patent/CN112487472B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108537055A (zh) * | 2018-03-06 | 2018-09-14 | 南京邮电大学 | 一种数据查询隐私保护的隐私预算分配和数据发布方法及其系统 |
CN110633285A (zh) * | 2019-09-26 | 2019-12-31 | 哈尔滨工程大学 | 一种满足差分隐私的不确定数据频繁项集挖掘方法 |
CN111414641A (zh) * | 2020-03-13 | 2020-07-14 | 中国科学院信息工程研究所 | 一种基于采样的个性化差分隐私保护方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112487472A (zh) | 2021-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10579827B2 (en) | Event processing system to estimate unique user count | |
US10482285B2 (en) | Event processing system | |
CA2953959C (en) | Feature processing recipes for machine learning | |
US10922316B2 (en) | Using computing resources to perform database queries according to a dynamically determined query size | |
US10509772B1 (en) | Efficient locking of large data collections | |
US9047349B2 (en) | Methods for effective processing of time series | |
CN110110006A (zh) | 数据管理方法及相关产品 | |
CN109886334B (zh) | 一种隐私保护的共享近邻密度峰聚类方法 | |
CN114546295B (zh) | 一种基于zns固态硬盘的智能写分配方法和装置 | |
CA2540947C (en) | Tracking space usage in a database | |
CN112487472B (zh) | 基于交互式查询的自适应差分隐私预算分配方法及其系统 | |
CN110119396A (zh) | 数据管理方法及相关产品 | |
CN110309143A (zh) | 数据相似度确定方法、装置及处理设备 | |
CN100485640C (zh) | 用于企业软件系统的高速缓存 | |
GB2497172A (en) | Reserving space on a storage device for new data based on predicted changes in access frequencies of storage devices | |
CN107346342A (zh) | 一种基于存储计算的文件调用方法与系统 | |
US10853432B2 (en) | Methods and systems for generating search results and recommendations based on multi-sourced two-way correspondence and relative entity prominence | |
CN116451278A (zh) | 星型连接工作负载查询隐私保护方法、系统、设备及介质 | |
US20200012726A1 (en) | Index data structures and graphical user interface | |
US10878048B2 (en) | Methods and systems for generating search results and recommendations based on multi-sourced two-way correspondence and relative entity prominence | |
KR102054068B1 (ko) | 그래프 스트림에 대한 실시간 분산 저장을 위한 분할 방법 및 분할 장치 | |
CN110119427A (zh) | 数据管理方法及相关产品 | |
CN110110007A (zh) | 数据管理方法及相关产品 | |
CN117640407B (zh) | 一种基于5g通信技术的用户数据分析识别系统及方法 | |
CN106557469A (zh) | 一种处理数据仓库中数据的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |