CN111414641B - 一种基于采样的个性化差分隐私保护方法及系统 - Google Patents
一种基于采样的个性化差分隐私保护方法及系统 Download PDFInfo
- Publication number
- CN111414641B CN111414641B CN202010176389.0A CN202010176389A CN111414641B CN 111414641 B CN111414641 B CN 111414641B CN 202010176389 A CN202010176389 A CN 202010176389A CN 111414641 B CN111414641 B CN 111414641B
- Authority
- CN
- China
- Prior art keywords
- sampling
- privacy
- budget
- personalized
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Bioethics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Medical Informatics (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供的基于采样的个性化差分隐私保护方法及系统,该方法包括:个性化差分隐私服务器收集用户的隐私数据,制定各隐私数据的个性化隐私预算;在获取到查询请求后,基于自适应算法获取采样参数;根据采样参数和当前的个性化隐私预算,对隐私数据进行采样,并将获取的采样数据归入采样数据集;若采样数据集的大小小于预设阈值,则根据采样数据集中每个采样数据及其权重,获取统计结果;若采样数据集的大小大于预设阈值,则获取剩余隐私预算,迭代执行上述步骤,直至采样数据集的大小小于预设阈值,获取统计结果。本实施例不但能够自适应地实现个性化差分隐私,还能充分地利用用户的个性化隐私预算,由此能够最大限度地提升统计结果的可用性。
Description
技术领域
本发明实施例为计算机技术领域,尤其涉及一种基于采样的个性化差分隐私保护方法及系统。
背景技术
近年来,移动社交网络得到了迅速的发展,成为人们日常生活中重要的组成部分,为用户提供了丰富的服务与体验。然而,大量真实信息的汇聚也急骤增加了用户隐私泄露的风险,因此,个人数据隐私问题得到广泛的关注。
为了保护用户的隐私,学术界和工业界都做了许多相关研究,众多隐私保护机制相继产生。但许多隐私保护方法由于仅适应特定背景知识下的攻击而存在严重的局限性。差分隐私(Differential Privacy,简称DP)凭借其能够抵御使用任意背景知识的攻击而从各类隐私保护方法中脱颖而出。
但是,DP也存在一定的局限性,具体表现在差分技术是通过使用一个全局的隐私预算为数据集中的所有用户提供隐私保护,从而造成所有的用户都受到统一级别的保护。然而,在现实生活中,不同用户对其敏感数据的隐私要求往往是不同的。而传统的DP无法提供这种差异化的隐私保护。为解决用户对个人数据隐私要求不同的问题,Alaggan等人提出了异构差分隐私(Heterogeneous Differential Privacy,简称HDP),首次在差分隐私的条件下考虑如何满足用户不同的隐私需求。为了能够实现HDP,还提出了拉伸机制,该机制会根据用户的隐私偏好重新缩放用户的数据。但拉伸机制的应用范围很有限,无法将其应用到更多、应用更广泛的查询函数中,例如中位数、平均值等函数。
为了解决上述问题,一种基于差分隐私的个性化差分隐私(PersonalizedDifferential Privacy,简称PDP)概念被提出。就隐私保护效果而言,PDP与DP具有相同的抵抗任意背景知识攻击的能力。除此之外,PDP还可以根据用户不同的隐私需求为用户提供个性化的隐私保护。为了更好地实现PDP的目标,学术界提出了许多精心设计的PDP机制。其中最常见的两种PDP机制是由Jorgensen等人提出的,即采样机制(Sampling Mechanism,简称SM)和个性化指数机制(Personalized Exponential Mechanism,简称PEM)。
其中,个性化指数机制会为每一个可能的查询结果计算出一个输出概率,该输出概率是根据用户个性化隐私需求得到的。在获取到所有结果的输出概率后,个性化指数机制会根据该概率随机地输出一个结果。而采样机制会根据用户的隐私需求以及采样阈值,为每个用户计算出其数据的采样概率。然后,在采样数据集上使用传统的差分隐私保护算法从而得到相应的扰动结果。
但是,现有的SM机制主要存在以下三个弊端:一是无法充分地满足用户个性化的隐私需求;二是会极大地破坏统计结果的可用性,从而导致统计结果误导数据分析人员;三是要求该机制的使用者需要具备相关知识以进行相关参数的设置。
发明内容
本发明实施例提供一种基于采样(SM)的个性化差分隐私(PDP)保护方法及系统,用以克服或有效的缓解现有的PDP机制在用户隐私保护过程中所存在的诸多不足。
第一方面,本发明实施例提供一种基于采样的个性化差分隐私保护方法,主要包括以下步骤:
S1:个性化差分隐私服务器收集用户的隐私数据;根据每个隐私数据对于查询请求的重要程度,制定各隐私数据的个性化隐私预算;
S2:在获取到查询请求后,基于自适应算法获取采样参数;
S3:根据采样参数和当前的个性化隐私预算,对隐私数据进行采样,并将获取的采样数据归入采样数据集;
S4:若采样数据集的大小小于预设阈值,则根据采样数据集中每个采样数据及其权重,获取统计结果;
S5:若采样数据集的大小大于所述预设阈值,则根据各预算浪费权重,获取剩余隐私预算作为当前的个性化隐私预算,迭代执行S3,直至采样数据集的大小小于预设阈值,获取统计结果。
作为可选地,上述采样参数包括采样终止参数以及各预算浪费权重。
作为可选地,上述基于自适应算法获取采样参数,主要包括获取采样终止参数以及获取各预算浪费权重;
其中,获取采样终止参数,具体为:基于自适应算法拟合出采样终止参数与采样误差之间的第一函数关系;基于自适应算法拟合出采样终止参数与噪声误差之间的第二函数关系;根据第一函数关系和第二函数关系,获取采样终止参数与采样总误差之间的第三函数关系;根据第三函数关系,确定出在采样总误差最小时的采样终止参数为目标采样终止参数;
其中,获取各预算浪费权重,主要包括获取采样误差预算浪费权重以及噪声误差预算浪费权重,具体为:确定所有个性化隐私预算中的最大隐私预算;根据采样终止参数,确定采样误差预算浪费以及噪声误差预算浪费;根据采样误差预算浪费与噪声误差预算浪费之间的关联关系,并结合采样误差预算浪费权重与噪声误差预算浪费权重之间的关联关系,获取采样误差预算浪费权重以及噪声误差预算浪费权重。
作为可选地,上述确定所有个性化隐私预算中的最大隐私预算的计算方法,主要包括:
上述采样误差预算浪费以及噪声误差预算浪费的计算方法,主要包括:
上述采样误差预算浪费与噪声误差预算浪费之间的关联关系的表达式为:
上述采样误差预算浪费权重以及噪声误差预算浪费权重分别为:
其中,ta为最大隐私预算,πi(t)表示在t作为采样阈值的条件下,第i个隐私数据的采样概率,S为个性化隐私预算,α为采样终止参数且α∈[0,1],N为采样数据集的大小,为采样误差预算浪费,ωs为采样误差预算浪费权重,为噪声误差预算浪费,ωn为噪声误差预算浪费权重,Si第i个隐私数据的个性化隐私需求。
作为可选地,上述对隐私数据进行采样,具体包括:基于最优化算法确定采样阈值;根据采样阈值,并结合当前的个性化隐私预算,计算当前每个隐私数据的采样概率;利用采样概率在所有隐私数据中进行采样。
作为可选地,上述基于最优化算法确定采样阈值的计算方法,主要包括
s.t.min(S)≤t≤max(S)
其中,mintBW(t,S)为最优化算法表达式,min(S)和max(S)分别表示个性化隐私预算中的最小值和最大值,BW(t,S)表示在给定个性化隐私预算S的条件下使用t作为采样阈值时所产生的总隐私预算浪费。
作为可选的,上述利用采样概率在所有隐私数据中进行采样的计算方法,主要包括:
作为可选地,上述根据采样数据集中每个采样数据及其权重,获取统计结果,具体包括:
ωi=ni·ti
其中,ni表示计算出采样数据为ri时所用的采样数据集的大小,ti表示计算出采样数据为ri时的采样阈值,ωi表示采样数据ri的权重,k表示迭代结束后有所有采样数据的数量。
第二方面,本发明实施例提供一种基于采样的个性化差分隐私保护系统,主要包括:信息初始化模块、参数计算模块、数据采样模块、迭代判断模块、隐私预算统计模块和统计结果整合模块。
信息初始化模块主要用于处理收集的隐私数据;根据每个隐私数据对于查询请求的重要程度,制定各隐私数据的个性化隐私预算。参数计算模块主要用于在获取到查询请求后,基于自适应算法获取采样参数。数据采样模块主要用于基于采样参数和当前的个性化隐私预算,对隐私数据进行采样,并将获取的采样数据归入采样数据集。迭代判断模块主要用于将采样数据集的大小与预设阈值进行比较。
当迭代判断模块输出为正时,则控制统计结果整合模块根据采样数据集中每个采样数据及其权重,输出统计结果。
当迭代判断模块输出为负时,则控制隐私预算统计模块获取剩余隐私预算,并控制数据采样模块迭代运行直至迭代判断模块输出为正;统计结果整合模块输出所述统计结果。
第三方面,本发明实施例提供一种基于采样的个性化差分隐私保护装置,包括客户端、个性化差分隐私服务器和查询器,其中:
个性化差分隐私服务器中设置有第二方面所述的基于采样的个性化差分隐私保护系统;客户端用于向个性化差分隐私服务器上传用户的隐私数据;查询器用于接收外部的查询请求,发送至个性化差分隐私服务器;还用于输出与查询请求相对应的统计结果。
第四方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行所述程序时实现如第一方面任一所述的基于采样的个性化差分隐私保护方法的步骤。
第五方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面任一所述的基于采样的个性化差分隐私保护方法的步骤。
本发明实施例提供的基于采样的个性化差分隐私保护方法及系统,在根据用户个性化的隐私预算计算出最优的采样参数及采样阈值,同时通过多轮迭代采样的方式对浪费的隐私预算进行再利用。不但能够自适应地实现个性化差分隐私,还能充分地利用用户个性化的隐私预算,由此最大限度地提升统计结果的可用性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于采样的个性化差分隐私保护方法流程示意图;
图2为本发明实施例提供的一种基于采样的个性化差分隐私保护系统的结构示意图;
图3为本发明实施例提供的一种基于采样的个性化差分隐私保护装置的结构示意图;
图4为本发明实施例提供的一种电子设备的实体结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有的PDP机制虽然考虑了用户个性化的隐私需求,并在可用性层面有了一定的提升,但它们仍然存在一定的局限性。就隐私而言,现有的PDP机制无法充分地利用用户个性化的隐私需求;就可用性而言,现有的PDP机制则存在输出结果精确度低的问题,其中可用性是表征真实统计结果和输出统计结果之间的偏差,偏差越小表明可用性越好。除了隐私和可用性这两个方面的问题之外,现有的PDP机制还存在使用门槛高的问题,在使用现有机制的过程中,往往需要使用者自己设定相关参数。比如在采样机制中,对于隐私预算高于采样阈值的用户而言,该用户会得到超出其需求的隐私保护,即无法充分地利用用户个性化的隐私需求。该机制最核心的参数是采样阈值,但是现有方案没有指出如何设置适当的阈值进行采样,由此导致只有当用户充分了解了该机制后,才能设定出比较合理的参数。
有鉴于此,本发明实施例提供一种基于采样的个性化差分隐私保护方法,如图1所示,包括以下但不限于以下步骤:
S1:个性化差分隐私服务器收集用户的隐私数据;根据每个隐私数据对于查询请求的重要程度,制定各隐私数据的个性化隐私预算;
S2:在获取到查询请求后,基于自适应算法获取采样参数;
S3:根据采样参数和当前的个性化隐私预算,对隐私数据进行采样,并将获取的采样数据归入采样数据集;
S4:若采样数据集的大小小于预设阈值,则根据采样数据集中每个采样数据及其权重,获取统计结果;
S5:若采样数据集的大小大于所述预设阈值,则根据各预算浪费权重,获取剩余隐私预算作为当前的个性化隐私预算,迭代执行S3,直至采样数据集的大小小于预设阈值,获取统计结果。
服务器收集用户的日常数据,并将获取的对数据存储于计算机系统中,组建成隐私数据库。上述服务器是一个可信的服务器,用户会向服务器提供原始的个人数据。该服务器会对外提供查询接口,为了保证用户个性化的隐私需求,该服务器会实施个性化差分隐私保护方法,在本发明实施例中,将该服务器称为PDP服务器。在接收到查询请求时,数据管理员根据数据的重要程度,给定数据的隐私预算。一般来说,返回的查询结果是含有噪声的,以使得数据的隐私得到保护。
具体地,在隐私保护方案使用的过程中,尤其是在使用存在可调参数的方案时,现有的大部分方案要么需要由使用者自己设定这个参数,要么是给定一个默认值。比如,在采样机制中,采样阈值的取值极为关键,该阈值的选取会对结果产生极大的影响。但是现有方案中并没有明确指出该使用多大的阈值进行采样,由此导致只有当使用者充分了解该机制时下才能设定出一个比较合理的参数,即该方案需要该机制使用人员具备相关的背景知识。虽然本发明实施例所提出的方法也设置了多种采样参数,但是相关参数的计算方法是基于自适应算法,可以支持各种查询函数和不断变化的隐私需求。
本发明实施例提供的个性化差分隐私保护方法,一般适用于发布具有不同隐私需求数据集的统计结果,该方法主要包括以下几个步骤:信息初始化、采样参数计算、数据集采样、终止条件判断、剩余隐私预算统计、最终统计结果计算等,具体如下:
第一步,信息初始化:PDP服务器收集不同用户的隐私数据及其所需的隐私预算,并确定一个查询函数,如中位数函数等。
其中,隐私预算是适用于差分隐私中的隐私预算,该预算用于调节噪声的大小,从而控制隐私保护程度,隐私预算值越大表明噪声越小,即隐私保护强度越低。
第二步,采样参数计算:本步骤是根据查询函数及个性化隐私预算,自适应地计算出所需要的与采样相关的参数,例如采样阈值、采样概率等等。
第三步,数据集采样:本步骤主要时对所有的用户隐私数据进行采样,采样概率是根据第二步中所获取的采样参数以及当前的个性化隐私预算计算出来的。
第四步,终止条件判断:本步骤的目标是判断当前所获取的采样数据集的大小是否能够满足预设的要求,即通过将采样数据集的大小与预设阈值进行比较,从而判断迭代收集采样数据集这一步骤是否终止。只有在当前的采样数据集的大小大于预设阈值时,才能满足本发明实施例对于统计结果可用性的要求。
第五步,剩余隐私预算统计:若采样数据集的大小大于预设阈值,则先根据第三步中各预算浪费的权重,确定总的个性化隐私预算的浪费值;然后计算出剩余隐私预算,作为当前的个性化隐私预算,返回至第三步,继续进行数据的采样,直至采样数据集的大小小于预设阈值,此时表明再进行下一步迭代采样已没有实质性的意义,故停止迭代采样。最后,基于最终建立差分隐私的采样数据集,以及该采样数据集中各采样数据的权重,从而计算出最终的统计结果。
本发明实施例提供的基于采样的个性化差分隐私保护方法,一方面,利用自适应算法,根据查询函数以及个性化隐私预算获取采样参数,最小化的减少隐私预算的浪费,减少了噪声损失的引入,从而充分的利用了用户个性化隐私预算;另一方面,在保证用户隐私需求的前提下,进行多轮迭代采样的方式,有效的实现了用户个性化隐私预算的再利用。
基于上述实施例的内容,作为一种可选实施例,上述步骤S2中所获取的采样参数可以包括:采样终止参数以及各预算浪费权重。
其中,采样终止参数主要用于通过控制多轮迭代的停止与否,实现统计结果可用性的调整。在获取了采样终止参数后,结合获取的采样数据集的大小,则可以确定出采样阈值的大小。
其中,各预算浪费权重则主要用于计算各隐私预算的浪费,并根据所获取的各隐私预算的浪费确定出总隐私预算的浪费,并结合当前的个性化隐私预算总值,计算出每次采样后的剩余隐私预算。
本发明实施例提供的基于采样的个性化差分隐私保护方法,设置了多种参数,并且提供了相关参数的计算方法,支持各种查询函数和不断变化的隐私需求。因此,不要求使用人员具备相关的背景知识,为提高了使用的便利性。
基于上述实施例的内容,作为一种可选实施例,在步骤S2中所述的基于自适应算法获取采样参数,主要包括获取采样终止参数以及获取各预算浪费权重。
其中,获取采样终止参数,具体可以为:基于自适应算法拟合出采样终止参数与采样误差之间的第一函数关系;基于自适应算法拟合出采样终止参数与噪声误差之间的第二函数关系;根据第一函数关系和第二函数关系,获取采样终止参数与采样总误差之间的第三函数关系,具体地,当将第一函数记为err_s(α),第二函数记为err_n(α)时,此时,第三函数可以表述为:err_all(α)=err_s(α)+err_n(α)。最后,可以根据第三函数关系,确定出在采样总误差最小时的采样终止参数为目标采样终止参数。
在采样的过程中主要会产生如下两部分预算浪费:一部分预算浪费出现在个性化隐私预算小于采样阈值的数据中;另一部分预算浪费则出现在个性化隐私预算大于采样阈值的数据。前者的预算浪费会导致采样误差,后者的预算浪费会导致噪声误差。即若需要确定出采样总误差则先计算出组成采样总误差的采样误差和噪声误差。
具体地,在本发明实施例中,首先基于自适应算法,利用实验计算出部分采用终止参数所产生的采样误差,然后根据实验结果拟合出采样终止参数和采样误差间的函数关系式(为便于表述记为:第一函数关系的表达式)。
同理,采用上述方法可以拟合出采样终止参数与噪声误差之间的第二函数关系式。进一步,可以根据上述两个函数关系式,建立采样终止参数和总误差间的第三函数关系。最后,利用构建的第三函数关系,能够计算出使总误差最小的参数为最终的目标采样终止参数。
进一步地,上述获取各预算浪费权重则主要为获取采样误差预算浪费权重以及噪声误差预算浪费权重,具体可以包括:
确定所有个性化隐私预算中的最大隐私预算;根据采样终止参数,确定采样误差预算浪费以及噪声误差预算浪费;根据采样误差预算浪费与噪声误差预算浪费之间的关联关系,并结合采样误差预算浪费权重与噪声误差预算浪费权重之间的关联关系,获取采样误差预算浪费权重以及噪声误差预算浪费权重。
具体地,在完成了采样终止参数的设置后,根据获取的采样终止参数以及当前的个性化隐私预算,能够分别确定采样误差预算浪费以及噪声误差预算浪费这两类预算浪费的权重。
首先,确定所有当前个性化隐私预算中的最大隐私预算,其计算方法包括:
其中,ta为最大隐私预算,πi(t)表示在t作为采样阈值的条件下,第i个隐私数据的采样概率,S为个性化隐私预算,α为采样终止参数且α∈[0,1],N为采样数据集的大小。
其中,Si第i个隐私数据的个性化隐私需求,πi(tα)表示在tα作为采样阈值的条件下第i个隐私数据的采样概率。
通过结合上述两类预算浪费所占的权重,则可以计算总的预算浪费:
其中,ωs为采样误差预算浪费权重,ωn为噪声误差预算浪费权重。
其中,采样误差预算浪费与所述噪声误差预算浪费之间的关联关系满足下列不等式:
采样误差预算浪费权重与噪声误差预算浪费权重之间的关联关系:
ωs+ωn=1
结合上述不等式等号成立的条件以及两个权重之间的关联关系,则可以最终计算出上述两类预算浪费的权重分别为:
基于上述实施例的内容,作为一种可选实施例,上述对隐私数据进行采样,具体可以包括以下步骤:
基于最优化算法确定采样阈值;根据采样阈值,并结合当前的个性化隐私预算,计算当前每个隐私数据的采样概率;利用采样概率在所有隐私数据中进行采样。
具体地,在本发明实施例中,根据统计个预算浪费,获取当前所剩余的个性化预算,通过求解优化问题生成采样过程中所需要的采样阈值。其中,基于最优化算法确定采样阈值的计算方法可以为:
s.t.min(S)≤t≤max(S)
其中,mintBW(t,S)为最优化算法表达式,min(S)和max(S)分别表示个性化隐私预算中的最小值和最大值,BW(t,S)表示在给定个性化隐私预算S的条件下使用t作为采样阈值时所产生的总隐私预算浪费。
具体地,在发明本实施例中,最优化问题的具体定义如下:
s.t.min(S)≤t≤max(S)
其中,t表示采样阈值,S表示个性化隐私预算,min(S)和max(S)分别表示个性化隐私预算中的最小值和最大值,BW(t,S)表示在给定个性化隐私预算S的条件下,使用t作为采样阈值时所产生的隐私预算浪费。
而其中的总的预算浪费的计算公式可具体定义为:
通过对上述最优化问题的求解,则可以获取使得总隐私预算浪费最小时的采样值为采样阈值。
基于上述实施例的内容,作为一种可选实施例,在步骤S3中,所述利用采样概率在所有隐私数据中进行采样中,采样概率的计算方法,可以包括:
基于上述实施例的内容,作为一种可选实施例,在执行步骤S3之后,还可以根据采样终止参数确定所述预设阈值。
其中,该预设阈值可以设定为N′其中,N′=α·N,其中,α为采样终止参数,N表示当前采样数据集的大小。
本发明实施例提供的基于采样的个性化差分隐私保护方法,根据用户个性化的隐私预算确定出最优的采样阈值,有效的提高了最终获取的统计结果的可行性。
基于上述实施例所述的内容,作为一种可选实施例,在步骤S4中,在确定采样数据集的大小达到预设阈值之后,根据采样数据集中每个采样数据及其权重,获取统计结果,具体包括:
ωi=ni·ti
其中,ni表示计算出采样数据为ri时所用的采样数据集的大小,ti表示计算出采样数据为ri时的采样阈值,ωi表示采样数据ri的权重,k表示迭代结束后有所有采样数据的数量。
具体地,若采样数据集的大小未达到预设阈值,则利用采样阈值以及所获取的采样数据集,生成满足差分隐私的统计结果以及确定该各个统计结果对应的权重。然后,根据采样后剩余的隐私数据以及所使用的采样阈值,计算出剩余的个性化隐私预算。接下来跳转到步骤3进行下一轮迭代。
其中,满足差分隐私的统计结果表示可以利用任何能够满足差分隐私的机制(如,拉普拉斯机制或者指数机制等)对采样数据集的统计结果进行保护,而采样阈值将作为所用差分机制中控制噪声大小的隐私预算。
其中,统计结果ri的权重可利用如下公式进行计算:
ωi=ni·ti
若采样数据集的大小已经达到预设阈值,则进行最终统计结果的计算,包括根据采样数据集以及该数据集中每个结果的权重整合出最终的统计结果,其具体公式如下:
本发明实施例提供的基于采样的个性化差分隐私保护方法,为了提升统计数据的可用性,主要改进点表现在:
1)根据查询函数以及个性化隐私预算自适应地计算出所使用的各个相关参数,且支持各种查询函数和不断变化的隐私需求。因此,实现了不要求使用人员具备相关的背景知识。
2)通过确定一组最优的采样参数,从而最小化预算的浪费,进而减少噪声的引入,由此充分地利用用户个性化隐私预算。
3)在保证用户隐私需求的前提下,进行多轮迭代采样,从而实现用户个性化隐私预算的再利用。
4)利用非均等采样的方法实现了个性化差分隐私的目标,其中所述的非均等采样主要是将不同的数据赋予不同的采样概率,而每个隐私数据的采样概率是根据隐私数据对应的个性化隐私预算计算获取的。
本发明实施例提供基于采样的个性化差分隐私保护系统,如图2所示,包括但不限于:信息初始化模块1、参数计算模块2、数据采样模块3、迭代判断模块4、隐私预算统计模块5和统计结果整合模块6;
信息初始化模块1主要用于处理收集的隐私数据;并根据每个隐私数据对于查询请求的重要程度,制定各隐私数据的个性化隐私预算。
参数计算模块2主要用于在获取到查询请求后,基于自适应算法获取采样参数。
数据采样模块3主要用于基于采样参数和当前的个性化隐私预算,对隐私数据进行采样,并将获取的采样数据归入采样数据集。
迭代判断模块4主要用于将采样数据集的大小与预设阈值进行比较。
当迭代判断模块输出为正时,则控制统计结果整合模块6根据采样数据集中每个采样数据及其权重,输出统计结果;
当迭代判断模块输出为负时,则控制隐私预算统计模块5获取剩余隐私预算,并控制数据采样模块3迭代运行,直至所迭代判断模块4输出为正时,统计结果整合模块6输出统计结果。
进一步地,本发明实施例还提供一种基于采样的个性化差分隐私保护装置,如图3所示,主要包括:客户端、个性化差分隐私服务器和查询器。其中,个性化差分隐私服务器中设置有如上述实施例中所述的基于采样的个性化差分隐私保护系统;客户端用于向个性化差分隐私服务器上传用户的隐私数据;查询器用于接收外部的查询请求,发送至个性化差分隐私服务器;还用于输出与查询请求相对应的统计结果。
具体地,各部件之间的工作流程如下:客户端向PDP服务器上传个人数据及其个性化隐私预算。PDP服务器收集到有不同隐私需求的用户数据后,首先,利用信息初始化模块1和参数计算模块2根据查询函数和个性化隐私预算自适应地计算出采样参数,以此作为数据采样模块3的输入。数据采样模块3输出所采集的数据集以及所使用的采样参数以此作为迭代判断模块4的输入。迭代判断模块4输出结果以控制迭代是否继续:若迭代继续,则进入隐私预算统计模块5,隐私预算统计模块5将输出当前剩余的个性化隐私预算,以次作为数据采样模块的输入,由此开始了下一轮的迭代采样;若迭代终止则进入统计结果整合模块6,该模块将输出最终的统计结果返回给服务器。其中,个性化隐私预算是用于差分隐私中控制噪声大小的参数,该预算值越大表明噪声越小即隐私保护强度越低。
需要说明的是,本发明实施例提供的基于采样的个性化差分隐私保护系统及装置,在具体运行时,可用于执行上述任一实施例中所述的基于采样的个性化差分隐私保护方法,在此不作一一赘述。
本发明实施例提供的基于采样的个性化差分隐私保护系统及装置,在根据用户个性化的隐私预算计算出最优的采样参数及采样阈值,同时通过多轮迭代采样的方式对浪费的隐私预算进行再利用。不但能够自适应地实现个性化差分隐私,还能充分地利用用户个性化的隐私预算,由此最大限度地提升统计结果的可用性。
图4示例了一种电子设备的实体结构示意图,如图4所示,该电子设备可以包括:处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令,以执行如下方法:
S1:个性化差分隐私服务器收集用户的隐私数据;根据每个隐私数据对于查询请求的重要程度,制定各隐私数据的个性化隐私预算;
S2:在获取到查询请求后,基于自适应算法获取采样参数;
S3:根据采样参数和当前的个性化隐私预算,对隐私数据进行采样,并将获取的采样数据归入采样数据集;
S4:若采样数据集的大小小于预设阈值,则根据采样数据集中每个采样数据及其权重,获取统计结果;
S5:若采样数据集的大小大于预设阈值,则根据各预算浪费权重,获取剩余隐私预算作为当前的个性化隐私预算,迭代执行S3,直至采样数据集的大小小于预设阈值,获取统计结果。
此外,上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的传输方法,例如包括:
S1:个性化差分隐私服务器收集用户的隐私数据;根据每个隐私数据对于查询请求的重要程度,制定各隐私数据的个性化隐私预算;
S2:在获取到查询请求后,基于自适应算法获取采样参数;
S3:根据采样参数和当前的个性化隐私预算,对隐私数据进行采样,并将获取的采样数据归入采样数据集;
S4:若采样数据集的大小小于预设阈值,则根据采样数据集中每个采样数据及其权重,获取统计结果;
S5:若采样数据集的大小大于预设阈值,则根据各预算浪费权重,获取剩余隐私预算作为当前的个性化隐私预算,迭代执行S3,直至采样数据集的大小小于预设阈值,获取统计结果。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于采样的个性化差分隐私保护方法,其特征在于,包括以下步骤:
S1:个性化差分隐私服务器收集用户的隐私数据;根据每个所述隐私数据对于查询请求的重要程度,制定各隐私数据的个性化隐私预算;
S2:在获取到查询请求后,基于自适应算法获取采样参数;
S3:根据所述采样参数和当前的个性化隐私预算,对所述隐私数据进行采样,并将获取的采样数据归入采样数据集;
S4:若所述采样数据集的大小小于预设阈值,则根据所述采样数据集中每个采样数据及其权重,获取统计结果;
S5:若所述采样数据集的大小大于所述预设阈值,则根据各预算浪费权重,获取剩余隐私预算作为所述当前的个性化隐私预算,迭代执行S3,直至所述采样数据集的大小小于预设阈值,获取所述统计结果;
所述采样参数包括采样终止参数以及各预算浪费权重;
所述基于自适应算法获取采样参数,包括获取采样终止参数以及获取各预算浪费权重;
所述获取采样终止参数,具体为:
基于自适应算法拟合出所述采样终止参数与采样误差之间的第一函数关系;
基于自适应算法拟合出所述采样终止参数与噪声误差之间的第二函数关系;
根据所述第一函数关系和所述第二函数关系,获取所述采样终止参数与采样总误差之间的第三函数关系;
根据所述第三函数关系,确定出在所述采样总误差最小时的采样终止参数为目标采样终止参数;
所述获取各预算浪费权重,包括获取采样误差预算浪费权重以及噪声误差预算浪费权重,具体为:
确定所有所述个性化隐私预算中的最大隐私预算;
根据所述采样终止参数,确定采样误差预算浪费以及噪声误差预算浪费;
根据所述采样误差预算浪费与所述噪声误差预算浪费之间的关联关系,并结合所述采样误差预算浪费权重与所述噪声误差预算浪费权重之间的关联关系,获取所述采样误差预算浪费权重以及噪声误差预算浪费权重;
所述确定所有所述个性化隐私预算中的最大隐私预算的计算方法,包括:
所述采样误差预算浪费以及噪声误差预算浪费的计算方法,包括:
所述采样误差预算浪费与所述噪声误差预算浪费之间的关联关系的表达式为:
所述采样误差预算浪费权重以及噪声误差预算浪费权重分别为:
2.根据权利要求1所述的基于采样的个性化差分隐私保护方法,其特征在于,所述对所述隐私数据进行采样,具体包括:
基于最优化算法确定采样阈值;
根据所述采样阈值,并结合当前的个性化隐私预算,计算当前每个隐私数据的采样概率;
利用所述采样概率在所有所述隐私数据中进行采样。
5.根据权利要求1所述的基于采样的个性化差分隐私保护方法,其特征在于,在执行步骤S3之后,还包括根据所述采样终止参数确定所述预设阈值。
7.一种基于采样的个性化差分隐私保护系统,其特征在于,包括:信息初始化模块、参数计算模块、数据采样模块、迭代判断模块、隐私预算统计模块和统计结果整合模块;
所述信息初始化模块,用于处理收集的隐私数据;根据每个所述隐私数据对于查询请求的重要程度,制定各隐私数据的个性化隐私预算;
所述参数计算模块,用于在获取到查询请求后,基于自适应算法获取采样参数;
所述数据采样模块,用于基于所述采样参数和当前的个性化隐私预算,对所述隐私数据进行采样,并将获取的采样数据归入采样数据集;
所述迭代判断模块,用于将所述采样数据集的大小与预设阈值进行比较;
当所述迭代判断模块输出为正时,则控制所述统计结果整合模块根据所述采样数据集中每个采样数据及其权重,输出统计结果;
当所述迭代判断模块输出为负时,则控制所述隐私预算统计模块获取剩余隐私预算,并控制所述数据采样模块迭代运行直至所述迭代判断模块输出为正,所述统计结果整合模块输出所述统计结果;
所述采样参数包括采样终止参数以及各预算浪费权重;
所述基于自适应算法获取采样参数,包括获取采样终止参数以及获取各预算浪费权重;
所述获取采样终止参数,具体为:
基于自适应算法拟合出所述采样终止参数与采样误差之间的第一函数关系;
基于自适应算法拟合出所述采样终止参数与噪声误差之间的第二函数关系;
根据所述第一函数关系和所述第二函数关系,获取所述采样终止参数与采样总误差之间的第三函数关系;
根据所述第三函数关系,确定出在所述采样总误差最小时的采样终止参数为目标采样终止参数;
所述获取各预算浪费权重,包括获取采样误差预算浪费权重以及噪声误差预算浪费权重,具体为:
确定所有所述个性化隐私预算中的最大隐私预算;
根据所述采样终止参数,确定采样误差预算浪费以及噪声误差预算浪费;
根据所述采样误差预算浪费与所述噪声误差预算浪费之间的关联关系,并结合所述采样误差预算浪费权重与所述噪声误差预算浪费权重之间的关联关系,获取所述采样误差预算浪费权重以及噪声误差预算浪费权重;
所述确定所有所述个性化隐私预算中的最大隐私预算的计算方法,包括:
所述采样误差预算浪费以及噪声误差预算浪费的计算方法,包括:
所述采样误差预算浪费与所述噪声误差预算浪费之间的关联关系的表达式为:
所述采样误差预算浪费权重以及噪声误差预算浪费权重分别为:
8.一种基于采样的个性化差分隐私保护装置,其特征在于,包括客户端、个性化差分隐私服务器和查询器;
所述个性化差分隐私服务器中设置有如权利要求7所述的基于采样的个性化差分隐私保护系统;
所述客户端用于向所述个性化差分隐私服务器上传用户的隐私数据;
所述查询器用于接收外部的查询请求,发送至所述个性化差分隐私服务器;还用于输出与所述查询请求相对应的统计结果。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述基于采样的个性化差分隐私保护方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至6任一项所述基于采样的个性化差分隐私保护方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010176389.0A CN111414641B (zh) | 2020-03-13 | 2020-03-13 | 一种基于采样的个性化差分隐私保护方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010176389.0A CN111414641B (zh) | 2020-03-13 | 2020-03-13 | 一种基于采样的个性化差分隐私保护方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111414641A CN111414641A (zh) | 2020-07-14 |
CN111414641B true CN111414641B (zh) | 2023-04-11 |
Family
ID=71491025
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010176389.0A Active CN111414641B (zh) | 2020-03-13 | 2020-03-13 | 一种基于采样的个性化差分隐私保护方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111414641B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112287387B (zh) * | 2020-10-13 | 2024-02-27 | 武汉大学 | 一种隐私保护统计分析方法及系统、服务器端、设备终端 |
CN112487472B (zh) * | 2020-11-09 | 2023-11-17 | 安徽工业大学 | 基于交互式查询的自适应差分隐私预算分配方法及其系统 |
CN112487482B (zh) * | 2020-12-11 | 2022-04-08 | 广西师范大学 | 自适应切割阈值的深度学习差分隐私保护方法 |
CN112926090B (zh) * | 2021-03-25 | 2023-10-27 | 支付宝(杭州)信息技术有限公司 | 基于差分隐私的业务分析方法及装置 |
CN113032399B (zh) * | 2021-03-30 | 2022-08-30 | 北京邮电大学 | 一种数据处理方法及装置 |
CN113111383B (zh) * | 2021-04-21 | 2022-05-20 | 山东大学 | 一种垂直分割数据的个性化差分隐私保护方法及系统 |
CN117371036B (zh) * | 2023-10-19 | 2024-04-30 | 湖南工商大学 | 多模态交通流查询的格雷码差分隐私保护方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA3096427A1 (en) * | 2018-04-14 | 2019-10-17 | LeapYear Technologies, Inc. | Budget tracking in a differentially private database system |
CN110874488A (zh) * | 2019-11-15 | 2020-03-10 | 哈尔滨工业大学(深圳) | 一种基于混合差分隐私的流数据频数统计方法、装置、系统及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10108818B2 (en) * | 2015-12-10 | 2018-10-23 | Neustar, Inc. | Privacy-aware query management system |
-
2020
- 2020-03-13 CN CN202010176389.0A patent/CN111414641B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA3096427A1 (en) * | 2018-04-14 | 2019-10-17 | LeapYear Technologies, Inc. | Budget tracking in a differentially private database system |
CN110874488A (zh) * | 2019-11-15 | 2020-03-10 | 哈尔滨工业大学(深圳) | 一种基于混合差分隐私的流数据频数统计方法、装置、系统及存储介质 |
Non-Patent Citations (1)
Title |
---|
基于Skyline计算的社交网络关系数据隐私保护;张书旋等;《计算机应用》(第05期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111414641A (zh) | 2020-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111414641B (zh) | 一种基于采样的个性化差分隐私保护方法及系统 | |
CN111400755B (zh) | 一种基于指数机制的个性化差分隐私保护方法及系统 | |
WO2022193432A1 (zh) | 模型参数更新方法、装置、设备、存储介质及程序产品 | |
CN110401780B (zh) | 一种识别诈骗电话的方法及装置 | |
CN109902506B (zh) | 一种多隐私预算的本地差分隐私数据分享方法和系统 | |
US20210089887A1 (en) | Variance-Based Learning Rate Control For Training Machine-Learning Models | |
CN110348238B (zh) | 一种面向应用的隐私保护分级方法及装置 | |
US20230088768A1 (en) | System and Method for Statistically Distributed Rate Limiting of Application Programming Interface Traffic | |
CN110830445A (zh) | 一种异常访问对象的识别方法及设备 | |
JP6553816B2 (ja) | ユーザデータ共有方法及び装置 | |
CN110460650A (zh) | 多边缘服务器场景下计算卸载的决策方法及装置 | |
CN112416590A (zh) | 服务器系统资源调整方法、装置、计算机设备及存储介质 | |
CN115481441A (zh) | 面向联邦学习的差分隐私保护方法及装置 | |
CN112494935B (zh) | 一种云游戏平台池化方法、电子设备及存储介质 | |
WO2019062404A1 (zh) | 应用程序的处理方法、装置、存储介质及电子设备 | |
Cormode et al. | Bit-efficient numerical aggregation and stronger privacy for trust in federated analytics | |
CN112818399A (zh) | 大数据访问权限动态调整方法及大数据访问控制设备 | |
CN110347477B (zh) | 一种云环境下服务自适应部署方法和装置 | |
CN110781410A (zh) | 一种社群检测方法及装置 | |
CN109951609B (zh) | 一种恶意电话号码处理方法和装置 | |
CN110995696B (zh) | 一种伪造mac群体的发现方法及装置 | |
CN114422277A (zh) | 防御网络攻击的方法、装置、电子设备和计算机可读介质 | |
CN114116740A (zh) | 用于联合学习中确定参与方贡献度的方法及装置 | |
CN105718767B (zh) | 一种基于风险识别的信息处理方法及装置 | |
CN109508454B (zh) | 一种短信审核方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |