CN115879152A - 基于最小均方误差准则的自适应隐私保护方法、装置及系统 - Google Patents

基于最小均方误差准则的自适应隐私保护方法、装置及系统 Download PDF

Info

Publication number
CN115879152A
CN115879152A CN202211578970.0A CN202211578970A CN115879152A CN 115879152 A CN115879152 A CN 115879152A CN 202211578970 A CN202211578970 A CN 202211578970A CN 115879152 A CN115879152 A CN 115879152A
Authority
CN
China
Prior art keywords
privacy
data
adaptive
privacy protection
optimal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211578970.0A
Other languages
English (en)
Inventor
宋海娜
武明虎
张凡
胡胜
熊炜
李利荣
万相奎
沈华
张明武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hubei University of Technology
Original Assignee
Hubei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hubei University of Technology filed Critical Hubei University of Technology
Priority to CN202211578970.0A priority Critical patent/CN115879152A/zh
Publication of CN115879152A publication Critical patent/CN115879152A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Complex Calculations (AREA)

Abstract

本发明提供了一种基于最小均方误差准则的自适应隐私保护方法、装置及系统,自适应包含自适应选择最佳的扰动方法以进行数据扰动和自适应选择最佳的扰动概率以输出扰动数据,该方法不仅实现了个性化隐私保护,并且通过加权聚合可获得更高的数据效用。其中,基于最小均方误差推导两种经典本地化差分隐私技术——basic RAPPOR技术和k‑RR技术的自适应边界,本地端的参与者基于该自适应边界自适应地从上述两种本地化差分隐私技术中选择一种作为最佳的数据扰动方法,并根据隐私需求自适应选择最佳的扰动概率进行扰动输出。此外,本发明给出了一种多重扰动的数据扩展策略,在不泄露额外隐私的情况下等效地增加了某些高隐私需求的子群体的样本量,从而进一步提高统计估计的准确性。

Description

基于最小均方误差准则的自适应隐私保护方法、装置及系统
技术领域
本发明涉及隐私数据保护技术领域,尤其涉及一种基于最小均方误差准则的自适应隐私保护方法、装置及系统。
背景技术
随机响应(Randomized Response,RR)是基于数据失真的本地化差分隐私(LocalDifferential Privacy,LDP)保护技术的主流扰动机制,模型简洁直观且易于实现,并且其扰动程度可直接量化,在统计特性的估计方面性能优良,因此受到了广泛的关注。RR采用依概率作答的方式来保护数据提供者(或受访者)的隐私,保证敏感问题作答具有很强的可否认性,即具有隐私保护性,已经在Google Chrome的隐私保护工具和Apple系统中应用。同时,RR充分考虑了数据采集过程中数据收集者窃取或泄露用户隐私的可能性,该模型中受访者能够独立地对个体数据进行隐私化处理,即使是数据收集者也无法获得确切的原始隐私数据,大大激发其参与数据收集的积极性。因此,不同于中心化的隐私保护机制对于可信第三方的假设,基于RR的本地化差分隐私保护机制不再需要可信第三方的介入,同时也免除了不可信第三方数据收集者可能带来的隐私泄露和隐私攻击。
然而,实际中不同个体的隐私保护需求不一样。如果硬性地对所有用户的数据进行相同等级的隐私保护,会造成隐私需求高的用户保护不足,隐私需求低的用户过度保护。不仅造成用户反对数据的开放与共享,也在一定程度上降低统计估计的精度。
发明内容
本发明的目的在随机响应的本地化数据收集中,充分考虑本地端用户的个性化隐私需求,基于最小均方误差准则给出一种自适应隐私保护方法,包含自适应的扰动方法选择和自适应的扰动概率选择,并基于最小均方误差构建合适的加权因子以进行加权聚合来提高统计估计的精度,同时采用一种多重扰动的数据扩展策略,在不泄露额外隐私的情况下等效地增加了某些子群体的样本量,进一步提高数据的可用性。
为了实现上述目的,本发明采用如下技术方案:
第一方面提供了基于最小均方误差准则的自适应隐私保护方法,包括:
数据聚合者接收本地端用户发送的隐私保护等级;
根据隐私保护等级对本地端用户进行分群,将具有相同隐私保护等级的用户划分到同一个子群体中;
根据本地化差分隐私技术和隐私保护等级确定最佳的扰动概率,基于最小均方误差准则,确定出两种经典本地化差分隐私技术的自适应边界,根据自适应边界选择最佳的数据扰动方式,并将自适应结果发送给对应的子群体中的用户,以使每个子群体中的用户采用对应的最佳的数据扰动方式对其隐私数据进行扰动处理,并采用最佳的扰动概率执行隐私保护操作,得到扰动后的数据,并发送给数据聚合者,其中,自适应结果包括最佳的数据扰动方式和最佳的扰动概率;
基于最小均方误差构建加权因子,对来自不同隐私保护等级下各子群体发送的扰动后的数据进行聚合,得到本地端用户隐私数据的统计估计。
在一种实施方式中,两种经典本地化差分隐私技术包括basic RAPPOR技术或k-RR技术,根据本地化差分隐私技术和隐私保护等级确定最佳的扰动概率,包括:
当采用的本地化差分隐私技术为basic RAPPOR技术时,在∈隐私保护等级下,针对二进制编码后隐私数据的每一个比特采用的最佳的扰动概率为:
Figure BDA0003981746160000021
其中,∈隐私保护等级;
当采用的本地化差分隐私技术为k-RR技术时,在∈隐私保护等级下,针对二进制编码后隐私数据的每一个比特采用的最佳的扰动概率为:
Figure BDA0003981746160000022
上式表示对隐私数据以p的概率保持原值,以(1-p)/的概率扰动输出其他k-1种的任意一种,k为不同隐私数据的个数。
在一种实施方式中,两种经典本地化差分隐私技术包括basic RAPPOR技术或k-RR技术,基于最小均方误差准则,确定出两种经典本地化差分隐私技术的自适应边界,包括:
基于最大似然估计准则计算采用basic RAPPOR技术时隐私分布的第一估计误差:
Figure BDA0003981746160000023
基于最大似然估计准则计算采用k-RR技术时隐私分布的第二估计误差:
Figure BDA0003981746160000024
其中,n表示数据量或用户个数,∈为隐私保护等级,也称为隐私预算,xi为第i种隐私数据,隐私数据xi的真实概率为Pi,k为不同隐私数据的个数,
Figure BDA0003981746160000025
为第一估计误差,
Figure BDA0003981746160000026
为第二估计误差;
根据第一估计误差和第二估计误差确定出两种经典本地化差分隐私技术的自适应边界。
在一种实施方式中,根据第一估计误差和第二估计误差确定出两种经典本地化差分隐私技术的自适应边界,包括:
构建函数
Figure BDA0003981746160000031
则ΔMSE的零点时的取值为:
Figure BDA0003981746160000032
其中,u和v的表达式为:
Figure BDA0003981746160000033
Figure BDA0003981746160000034
将∈*作为最小MSE准则下basic RAPPOR技术和k-RR技术的最佳自适应边界。
在一种实施方式中,基于最小均方误差构建加权因子,对来自不同隐私保护等级下各子群体发送的扰动后的数据进行聚合,得到本地端用户隐私数据的统计估计,包括:
基于最小均方误差的期望构建加权因子:
Figure BDA0003981746160000035
wτ为第v个子群体的加权因子且满足
Figure BDA0003981746160000036
l为计数符号,取值从1到m,MSEτ是第τ个子群体在隐私保护等级∈τ下的估计分布的均方误差值;
基于构建的加权因子对m个子群体中的扰动后的数据进行加权聚合,得到本地端用户隐私数据的统计估计:
Figure BDA0003981746160000037
其中,
Figure BDA0003981746160000038
为针对第τ个子群体隐私数据的估计分布,m为子群体的总数,
Figure BDA0003981746160000039
为本地端用户隐私数据的统计估计。
在一种实施方式中,所述方法还包括:采用多重扰动的数据扩展策略对子群体中的数据进行扩展,用以等效增加隐私需求高的隐私子群体的数量。
基于同样的发明构思,本发明第二方面提供了基于最小均方误差准则的自适应隐私保护装置,包括:
隐私保护等级接收模块,数据聚合者接收本地端用户发送的隐私保护等级;
群体划分模块,用于根据隐私保护等级对本地端用户进行分群,将具有相同隐私保护等级的用户划分到同一个子群体中;
自适应结果生成模块,用于根据本地化差分隐私技术和隐私保护等级确定最佳的扰动概率,基于最小均方误差准则,确定出两种经典本地化差分隐私技术的自适应边界,根据自适应边界选择最佳的数据扰动方式,并将自适应结果发送给对应的子群体中的用户,以使每个子群体中的用户采用对应的最佳的数据扰动方式对其隐私数据进行扰动处理,并采用最佳的扰动概率执行隐私保护操作,得到扰动后的数据,并发送给数据聚合者,其中,自适应结果包括最佳的数据扰动方式和最佳的扰动概率;
加权聚合模块,用于基于最小均方误差构建加权因子,对来自不同隐私保护等级下各子群体发送的扰动后的数据进行聚合,得到本地端用户隐私数据的统计估计。
基于同样的发明构思,本发明第三方面提供了一种基于最小均方误差准则的自适应隐私保护系统,包括第二方面所述的基于最小均方误差准则的自适应隐私保护装置以及本地用户端,其中,本地用户端用于向数据聚合者发送隐私保护等级,根据数据聚合者发送的自适应结果选择最佳的扰动方式对隐私数据进行扰动处理,并采用最佳的扰动概率执行隐私保护操作得到扰动后的数据,并发送给数据聚合者。
基于同样的发明构思,本发明第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被执行时实现第一方面所述的方法。
基于同样的发明构思,本发明第五方面提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面所述的方法。
相对于现有技术,本发明的优点和有益的技术效果如下:
本发明考虑个体的个性化隐私需求,基于最小均方误差提出了一种自适应隐私保护方法,该自适应包含两个层面,其一是自适应的扰动方法,其二是自适应的扰动概率。首先,采用均方误差来衡量隐私分布估计的准确性(即可用性),从最小均方误差的角度推导出最佳的自适应边界;其次,设计本地化自适应隐私保护的数据采集协议:本地端的参与者根据相应的个性化隐私保护等级,基于自适应边界来自适应地选择最佳的LDP算法,并采用最佳的自适应概率进行扰动,上传给第三方(数据聚合者);然后,引入加权聚合进行有效的数据聚合,以获得高可用性的统计分析。
进一步地,引入了一种多重扰动的数据扩展策略,在不泄露额外隐私的情况下等效地增加了某些子群体的样本量,可以进一步提高数据的可用性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的自适应隐私保护方法的数据收集框架的流程图;
图2是本发明实施例中划分4个子群体的自适应隐私保护方法(∈1=0.1,∈2=0.5,∈3=1.0,∈4=1.5)的框架图;
图3是本发明实施例中划分4个子群体并联合多重扰动的数据扩展策略的自适应隐私保护方法(∈1=0.1,∈2=0.5,∈3=1.0,∈4=1.5)的框架图;
图4是本发明实施例提供的基于最小均方误差准则的自适应隐私保护装置的结构框图;
图5为本发明实施例提供的计算机可读存储介质的结构示意图;
图6为本发明实施例提供的计算机设备的结构示意图。
具体实施方式
本发明的目的在随机响应的本地化数据收集中,充分考虑本地端用户的个性化隐私需求,基于最小均方误差准则给出一种自适应隐私保护方法,包含自适应的扰动方法选择和自适应的扰动概率选择,并基于最小均方误差构建合适的加权因子以进行加权聚合来提高统计估计的精度,同时采用一种多重扰动的数据扩展策略,在不泄露额外隐私的情况下等效地增加了某些子群体的样本量,进一步提高数据的可用性。
为了实现上述目的,本发明采用如下技术方案:在本地化数据收集中,参与者可以根据自己的个性化隐私需求进行个性化的隐私保护处理,其中隐私保护需求用差分隐私参数∈来衡量,根据个性化隐私需求被分成不同的子群体,同一子群体中用户的隐私需求相同,不同子群体中用户的隐私需求不同。针对每个子群体的隐私需求,基于最小均方误差准则,自适应地选择一种最佳的扰动方式(basic RAPPOR技术或k-RR技术),并自适应地选择最佳的扰动概率进行数据扰动输出。基于最小均方误差构建合适的加权因子以进行加权聚合来提高统计估计的精度,在实现个性化隐私保护的同时,保证较高的统计精度。同时采用一种多重扰动的数据扩展策略,在不泄露额外隐私的情况下等效地增加了样本量,进一步提高数据的可用性。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本发明实施例提供了基于最小均方误差准则的自适应隐私保护方法,包括:
数据聚合者接收本地端用户发送的隐私保护等级;
根据隐私保护等级对本地端用户进行分群,将具有相同隐私保护等级的用户划分到同一个子群体中;
根据本地化差分隐私技术和隐私保护等级确定最佳的扰动概率,基于最小均方误差准则,确定出两种经典本地化差分隐私技术的自适应边界,根据自适应边界选择最佳的数据扰动方式,并将自适应结果发送给对应的子群体中的用户,以使每个子群体中的用户采用对应的最佳的数据扰动方式对其隐私数据进行扰动处理,并采用最佳的扰动概率执行隐私保护操作,得到扰动后的数据,并发送给数据聚合者,其中,自适应结果包括最佳的数据扰动方式和最佳的扰动概率;
基于最小均方误差构建加权因子,对来自不同隐私保护等级下各子群体发送的扰动后的数据进行聚合,得到本地端用户隐私数据的统计估计。
在具体的应用场景中,本发明提出的隐私保护方法包括如下步骤:
步骤(1):本地端用户确定个性化的隐私保护等级,发送给数据收集者或聚合者。
步骤(2):数据收集者或聚合者根据隐私保护等级对本地端的用户进行分群,相同隐私保护等级的用户被分为一个子群体中。
步骤(3):数据聚合者根据步骤(1)中的隐私保护等级,基于最小均方误差准则,确定出自适应边界,使得每个子群体用户自适应选择最佳扰动方式(basic RAPPOR技术或k-RR技术)和最佳的扰动概率,然后将自适应选择的结果发送给本地端用户。
步骤(4):每个子群体中的用户采用最佳的扰动方式对其隐私数据进行感知,并采用最佳的扰动概率对其执行隐私保护操作,将扰动后的数据发送给数据聚合者。
步骤(5):数据聚合者聚合来自不同隐私保护等级下子群体的扰动数据,基于最小均方误差构建合适的加权因子,进而采用加权聚合以获得较好的统计估计。
传统基于本地化差分隐私的研究工作中,假设隐私保护参数完全由数据收集或聚合者确定合者确定,然后分发给所有参与者。然而,由于不同的隐私偏好,让所有参与者在数据收集或聚合过程中采用相同的隐私保护强度是不合理的。本发明提出了一种基于最小均方误差(Mean Square Error,MSE)准则的自适应隐私保护方法,该自适应包含自适应选择最佳的扰动方法以进行数据扰动和自适应选择最佳的扰动概率以输出扰动数据,该方法不仅实现了个性化隐私保护,并且通过加权聚合可获得更高的数据效用。其中,基于最小MSE推导两种经典本地化差分隐私技术——basic RAPPOR技术和k-RR技术的自适应边界,本地端的参与者基于该自适应边界自适应地从上述两种本地化差分隐私技术中选择一种作为最佳的数据扰动方法,并根据隐私需求自适应选择最佳的扰动概率进行扰动输出。此外,本发明给出了一种多重扰动的数据扩展策略,在不泄露额外隐私的情况下等效地增加了某个子群体的样本量,从而进一步提高统计估计的准确性,是一种面向统计与分析的实用方法,具有较强的实际意义。
由于在本发明的具体实施中,自适应的扰动方式和自适应的扰动概率是基于最小均方误差的准则推导的,可以在一定程度上提高估计的准确性。加权聚合也基于最小均方误差,相比于直接聚合,进一步提高了隐私分布估计的准确性。
在一种实施方式中,两种经典本地化差分隐私技术包括basic RAPPOR技术或k-RR技术,根据本地化差分隐私技术和隐私保护等级确定最佳的扰动概率,包括:
当采用的本地化差分隐私技术为basic RAPPOR技术时,在∈隐私保护等级下,针对二进制编码后隐私数据的每一个比特采用的最佳的扰动概率为:
Figure BDA0003981746160000071
其中,∈隐私保护等级;
当采用的本地化差分隐私技术为k-RR技术时,在∈隐私保护等级下,针对二进制编码后隐私数据的每一个比特采用的最佳的扰动概率为:
Figure BDA0003981746160000072
上式表示对隐私数据以p的概率保持原值,以(1-p)/的概率扰动输出其他k-1种的任意一种,k为不同隐私数据的个数。
具体实时过程中,如图1所示:假设本地端用户具有m种个性化的隐私保护等级,分别是∈1,∈2,…,∈m,即可划分成m个子群体G1,G2,…,Gm,子群体中的用户数量依次为n1,n2,…,nm,总样本量为
Figure BDA0003981746160000073
其中m≥2且为整数。
不失一般性,假设每个用户只有一种隐私数据x∈X={x1,x2,…,xk},其中k是不同隐私数据的个数,xi为第i种隐私数据。设隐私数据xi的真实概率为Pi,经过隐私保护操作后估计概率为
Figure BDA0003981746160000074
定义均方误差(Mean Square Error,MSE)来衡量统计估计的准确性:
Figure BDA0003981746160000075
其中,
Figure BDA0003981746160000076
为隐私数据估计的先验分布,PX=[P1,P2,…,Pk]为隐私数据的真实分布,E表示求期望操作,
Figure BDA0003981746160000077
是二范数操作。
在一种实施方式中,两种经典本地化差分隐私技术包括basic RAPPOR技术或k-RR技术,基于最小均方误差准则,确定出两种经典本地化差分隐私技术的自适应边界,包括:
基于最大似然估计准则计算采用basic RAPPOR技术时隐私分布的第一估计误差:
Figure BDA0003981746160000081
基于最大似然估计准则计算采用k-RR技术时隐私分布的第二估计误差:
Figure BDA0003981746160000082
其中,n表示数据量或用户个数,∈为隐私保护等级,也称为隐私预算,xi为第i种隐私数据,隐私数据xi的真实概率为Pi,k不同隐私数据的个数,
Figure BDA0003981746160000083
为第一估计误差,
Figure BDA0003981746160000084
为第二估计误差;
根据第一估计误差和第二估计误差确定出两种经典本地化差分隐私技术的自适应边界。
在一种实施方式中,根据第一估计误差和第二估计误差确定出两种经典本地化差分隐私技术的自适应边界,包括:
构建函数
Figure BDA0003981746160000085
则ΔMSE的零点下的取值为:
Figure BDA0003981746160000086
其中,u和v的表达式为:
Figure BDA0003981746160000087
Figure BDA0003981746160000088
将∈*作为最小MSE准则下basic RAPPOR技术和k-RR技术的最佳自适应边界。
具体来说,在得到最佳自适应边界之后,自适应扰动方式的选择或者确定方式如下:
·当∈≥∈*时,有
Figure BDA0003981746160000089
说明同等条件下采用k-RR技术的本地化差分隐私技术所获得的隐私数据的估计准确定高于采用basic RAPPOR技术,自适应选择k-RR技术作为扰动方式;
·当∈<∈*时,有
Figure BDA00039817461600000810
说明同等条件下采用basic RAPPOR技术的本地化差分隐私技术所获得的隐私数据的估计准确定高于采用k-RR技术,自适应选择basic RAPPOR技术作为扰动方式。
例如:隐私数据X为病患的患病情况,共有k=8种不同的取值,隐私数据取值集合为X={肺癌、肝癌、心脏病、冠心病、感冒、艾滋病、消化不良、肺结节},此时最佳自适应边界∈*=7809。下面就两种情况说明:
(1)假设某参与者u的隐私保护需求是∈=0.5,此时∈<∈*,基于最小MSE准则自适应选择basic RAPPOR技术作为扰动方式,并且最佳的自适应扰动概率
Figure BDA00039817461600000811
隐私数据取值集合为X={肺癌、肝癌、心脏病、冠心病、感冒、艾滋病、消化不良、肺结节},需要进行隐私数据的编码,编码结果为X={肺癌、肝癌、心脏病、冠心病、感冒、艾滋病、消化不良、肺结节}={10000000、01000000、00100000、00010000、00001000、00000100、00000010、00000001}。假设该参与者u的真实隐私数据是x=“肝癌”,则其隐私编码数据为“01000000”。此时,针对该隐私编码数据,进行一一扰动处理。针对每一比特数据,抛掷一枚硬币,其正面朝上的概率0.5622,反面朝上的概率0.4378。若正面朝上,则该比特位保持原值;若反面朝上,则该比特位翻转。
(2)假设某参与者u的隐私保护需求是∈=1.0,此时∈>∈*,基于最小MSE准则自适应选择k-RR技术作为扰动方式,并且最佳的自适应扰动概率
Figure BDA0003981746160000091
假设该参与者u的真实隐私数据是x=“肝癌”。此时,抛掷一枚硬币,其正面朝上的概率0.2797。若正面朝上,则扰动输出为{“肝癌”};若反面朝上,则从除去“肝癌”的集合{肺癌、心脏病、冠心病、感冒、艾滋病、消化不良、肺结节}中随机选取1种取值作为扰动数据输出。
为了兼顾私密性与可用性,在满足个性化隐私保护的同时,获得较高数据效用,本地端采用自适应隐私保护算法的思想进行个性化的数据扰动。定义隐私等级集合为{∈1,∈2,…,∈m},其中m为不同隐私等级的个数。自适应数据收集框架如图1所示,简单操作步骤:
步骤(1):本地端用户确定个性化的隐私保护等级,发送给数据收集者或聚合者。
步骤(2):数据收集者或聚合者根据隐私保护等级对本地端的用户进行分群,相同隐私保护等级的用户被分为一个子群体中。
步骤(3):数据聚合者根据步骤(1)中的隐私保护等级,基于最小均方误差准则,确定出自适应边界和最佳的扰动概率,使得每个子群体用户自适应选择最佳扰动方式(basicRAPPOR技术或k-RR技术)和最佳的扰动概率,然后将自适应选择的结果发送给本地端用户。
步骤(4):每个子群体中的用户采用最佳的扰动方式对其隐私数据进行感知,并采用最佳的扰动概率对其执行隐私保护操作,将扰动后的数据发送给数据聚合者。
步骤(5):数据聚合者聚合来自不同隐私保护等级下子群体的扰动数据,基于最小均方误差构建合适的加权因子,进而采用加权聚合以获得较好的统计估计。
在一种实施方式中,基于最小均方误差构建加权因子,对来自不同隐私保护等级下各子群体发送的扰动后的数据进行聚合,得到本地端用户隐私数据的统计估计,包括:
基于最小均方误差的期望构建加权因子:
Figure BDA0003981746160000092
wτ为第τ个子群体的加权因子且满足
Figure BDA0003981746160000101
l为计数符号,取值从1到m,MSEτ是第τ个子群体在隐私保护等级∈τ下的估计分布的均方误差值;
基于构建的加权因子对m个子群体中的扰动后的数据进行加权聚合,得到本地端用户隐私数据的统计估计:
Figure BDA0003981746160000102
其中,
Figure BDA0003981746160000103
为针对第τ个子群体隐私数据的估计分布,m为子群体的总数,
Figure BDA0003981746160000104
为本地端用户隐私数据的统计估计。
具体来说,考虑不同隐私群体对统计估计准确性的贡献程度,基于MSE设计加权聚合方法以提高统计估计的准确性。
针对m个子群体对隐私数据xi的估计分布:
Figure BDA0003981746160000105
采用如图1所示的加权聚合来获得最终的隐私数据xi的统计估计
Figure BDA0003981746160000106
具体示例中,同样以上述例子为例说明:假设共有k=8种不同的取值,隐私数据取值集合为X={肺癌、肝癌、心脏病、冠心病、感冒、艾滋病、消化不良、肺结节},此时最佳自适应边界∈*=7809。假设共有m=4种隐私保护等级,依次为∈1=0.1,∈2=0.5,∈3=1.0,∈4=1.5,即划分了4个子群体,如图2所示。下面就两种情况进行说明:
(1)基于最小MSE准则,隐私等级∈1和∈2的子群体自适应采用basic RAPPOR技术,且自适应扰动概率分别为
Figure BDA0003981746160000107
Figure BDA0003981746160000108
(2)基于最小MSE准则,隐私等级∈3和∈4的子群体自适应采用k-RR技术,且自适应扰动概率分别为
Figure BDA0003981746160000109
Figure BDA00039817461600001010
然后,每个子群体各自进行隐私数据的统计估计,最后进行加权聚合以获得更好的估计准确性。
在一种实施方式中,所述方法还包括:采用多重扰动的数据扩展策略对子群体中的数据进行扩展。
在本发明的具体实施中,所述多重扰动的数据扩展策略是在泄露额外隐私的情况下等效地增加了样本量,进一步提高了统计估计的准确性。
具体来说,考虑到隐私需求低的数据提供者也愿意提供隐私保护等级高的扰动数据,只要未造成额外的隐私泄露,即不超过各自最大的隐私预算。根据本地化差分隐私的组合特性,在原始隐私数据上进行多次独立的扰动,其隐私预算具有累加特性,从而超过其最大隐私预算,即会产生协作分级增益,造成额外的隐私泄露。基于此,本发明在不同隐私等级的扰动版本之间引入相关性,以消除不同扰动版本之间协作产生的分级增益。
基于信息论与编码中对称信道级联特性设计多级相关扰动策略,设计原则是:在不超过低隐私需求的数据提供者的最大隐私预算下,增加高隐私需求群体的样本数量,以进一步提高统计估计的准确性,有效兼顾私密性与可用性。为了便于描述,假设∈1<∈2<…<∈m,且满足:∈1<∈2<…∈f<∈*<∈f+1…<∈m,即前f个子群体采用basic RAPPOR技术,后s个子群体采用k-RR技术,其中f和s都是整数,且f+s=m。
针对前f个子群体,隐私需求∈τ<∈*下隐私数据
Figure BDA0003981746160000111
的扰动概率为
Figure BDA0003981746160000112
此时,经过扰动处理可以产生nτ个隐私保护等级为∈τ的二进制比特串
Figure BDA0003981746160000113
另一方面,隐私需求∈τ的子群体也可以提供隐私保护程度高的扰动数据,前提是不泄露其额外的隐私。根据差分隐私的组合特性,不能在隐私需求∈τ的子群体的原始隐私数据上直接进行独立扰动处理,否则会因为累加性超过其最大隐私预算。因此,可以在不同扰动版本之间引入相关性,在扰动数据集
Figure BDA0003981746160000114
上进行扰动,破坏差分隐私的组合特性,相关扰动概率p′τ-1满足:
Figure BDA0003981746160000115
其中p′τ-1表示在扰动版本
Figure BDA0003981746160000116
进行再次扰动得到隐私保护等级为∈τ-1的扰动数据
Figure BDA0003981746160000117
此时,经过扰动处理可以产生nτ个隐私保护等级为∈τ-1的扰动比特串
Figure BDA0003981746160000118
相当于增加了隐私保护等级为∈τ-1子群体的样本量,而且确保在原始数据集
Figure BDA0003981746160000119
上以pτ-1的概率扰动得到的统计特性等效在扰动数据集
Figure BDA00039817461600001110
上以p′τ-1的概率扰动得到的统计特性,如此提高了∈τ-1隐私保护等级下子群体隐私数据统计的准确性。
针对后s个子群体,隐私需求∈τ>∈*下隐私数据
Figure BDA00039817461600001111
的扰动概率为
Figure BDA00039817461600001112
此时,经过扰动处理可以产生nτ个隐私保护等级为∈τ的扰动数据
Figure BDA00039817461600001113
同理,隐私需求∈τ的子群体也可以提供隐私保护程度高的扰动数据,前提是不泄露其额外的隐私。根据差分隐私的组合特性,不能在数据量为nτ的原始隐私数据上直接进行独立扰动处理,否则会因为累加性超过其最大隐私预算。因此,可以在扰动数据集
Figure BDA0003981746160000121
上进行扰动,破坏差分隐私的组合特性,扰动概率满足:
Figure BDA0003981746160000122
此时,经过扰动处理可以产生nτ个隐私保护等级为∈τ-1的扰动数据
Figure BDA0003981746160000123
相当于增加了隐私保护等级为∈τ-1子群体的样本量,而且确保在原始数据集
Figure BDA0003981746160000124
上以pτ-1的概率扰动得到的统计特性等效在扰动数据集
Figure BDA0003981746160000125
上以p′τ-1的概率扰动得到的统计特性,如此提高了∈τ-1隐私保护等级下子群体隐私数据统计的准确性。
在前述方法的步骤(4)和(5)的基础上,采用上述多重扰动的数据扩展策略,在泄露额外隐私的情况下等效地增加了样本量,可进一步提高统计估计的准确性。
请参见图3,是本发明实施例中划分4个子群体并联合多重扰动的数据扩展策略的自适应隐私保护方法(∈1=0.1,∈2=0.5,∈3=1.0,∈4=1.5)的框架图;
同样以上述例子为例说明:假设共有k=8种不同的取值,隐私数据取值集合为X={肺癌、肝癌、心脏病、冠心病、感冒、艾滋病、消化不良、肺结节},此时最佳自适应边界∈*=7809。假设共有m=4种隐私保护等级,依次为∈1=0.1,∈2=0.5,∈3=1.0,∈4=1.5,即划分了4个子群体,每个子群体的数据量依次为n1=5000、n2=3000、n3=2000、n4=1000。下面就两种情况说明:
(1)自适应basic RAPPOR技术的子群体1和子群体2,隐私保护等级为∈1的子群体经过扰动获得隐私保护等级为∈1的扰动数据,并且在隐私保护等级为∈2的子群体的扰动数据上引入多重扰动的数据扩展策略,扰动概率为
Figure BDA0003981746160000126
即在隐私保护等级为∈2的扰动数据上以p′1的概率扰动,可以获得隐私保护等级为∈1的扰动数据,此时隐私保护等级为∈1的扰动数据的数据量为n1+n2=5000+3000=8000,其中保护隐私保护等级为∈1的子群体的扰动数据和隐私保护等级为∈2的子群体的扰动数据,等效增加了隐私保护等级为∈1的子群体数据量,而且不会造成额外的隐私泄露。
(2)自适应k-RR技术的子群体3和子群体4,隐私保护等级为∈3的子群体经过扰动获得隐私保护等级为∈3的扰动数据,并且在隐私保护等级为∈4的子群体的扰动数据上引入多重扰动的数据扩展策略,扰动概率为
Figure BDA0003981746160000127
即在隐私保护等级为∈4的扰动数据上以p 3=0.2674的概率扰动,可以获得隐私保护等级为∈3的扰动数据,此时隐私保护等级为∈3的扰动数据的数据量为n3+4=2000+1000=3000,其中保护隐私保护等级为∈3的子群体的扰动数据和隐私保护等级为∈4的子群体的扰动数据,等效增加了隐私保护等级为∈3的子群体数据量,而且不会造成额外的隐私泄露。
然后,有数据扩展的子群体,按照扩展后扰动数据进行统计分析,未扩展的子群体按照原始情况进行统计分析,最后进行加权聚合。
由于重扰动的数据扩展策略等效增加了样本量,因此可以进一步提高统计估计的准确性。
总体来说,本发明的优点和有益技术效果包括:
(1)充分考虑了本地端用户的个性化隐私需求,在实现个性化隐私保护的同时,一定程度上提高了本地端用户参与数据收集与共享的积极性和主动性;
(2)基于最小均方误差准则,从理论上推导并给出了两种经典本地化差分隐私的自适应边界,参与者根据该自适应边界自适应地选择合适的扰动方式;
(3)基于最小均方误差的加权聚合,相比于直接聚合,进一步提高了隐私分布估计的准确性;
(4)多重扰动的数据扩展策略是在不泄露额外隐私的情况下等效地增加了样本量,可进一步提高了统计估计的准确性;
(5)本发明提出的自适应隐私保护方法不仅实现个性化隐私保护,引入了多重扰动的数据扩展策略可以获得较高可用性的统计精度,是一种面向统计与分析的实用方法,具有较强的实际意义。
实施例二
基于同样的发明构思,本实施例提供了基于最小均方误差准则的自适应隐私保护装置,请参见图4,该装置包括:
隐私保护等级接收模块201,数据聚合者接收本地端用户发送的隐私保护等级;
群体划分模块202,用于根据隐私保护等级对本地端用户进行分群,将具有相同隐私保护等级的用户划分到同一个子群体中;
自适应结果生成模块203,用于根据本地化差分隐私技术和隐私保护等级确定最佳的扰动概率,基于最小均方误差准则,确定出两种经典本地化差分隐私技术的自适应边界,根据自适应边界选择最佳的数据扰动方式,并将自适应结果发送给对应的子群体中的用户,以使每个子群体中的用户采用对应的最佳的数据扰动方式对其隐私数据进行扰动处理,并采用最佳的扰动概率执行隐私保护操作,得到扰动后的数据,并发送给数据聚合者,其中,自适应结果包括最佳的数据扰动方式和最佳的扰动概率;
加权聚合模块204,用于基于最小均方误差构建加权因子,对来自不同隐私保护等级下各子群体发送的扰动后的数据进行聚合,得到本地端用户隐私数据的统计估计。
由于本发明实施例二所介绍的装置为实施本发明实施例一中基于最小均方误差准则的自适应隐私保护方法所采用的装置,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该装置的具体结构及变形,故而在此不再赘述。凡是本发明实施例一中方法所采用的装置都属于本发明所欲保护的范围。
实施例三
基于同一发明构思,本发明提供了最小均方误差准则的自适应隐私保护系统,包括实施例二所述的基于最小均方误差准则的自适应隐私保护装置以及本地用户端,其中,本地用户端用于向数据聚合者发送隐私保护等级,根据数据聚合者发送的自适应结果选择最佳的扰动方式对隐私数据进行扰动处理,并采用最佳的扰动概率执行隐私保护操作得到扰动后的数据,并发送给数据聚合者。
由于本发明实施例三所介绍的系统为实施本发明实施例一中基于最小均方误差准则的自适应隐私保护方法所采用的系统,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该系统的具体结构及变形,故而在此不再赘述。凡是本发明实施例一中方法所采用的系统都属于本发明所欲保护的范围。
实施例四
基于同一发明构思,请参见图5,本发明还提供了一种计算机可读存储介质300,其上存储有计算机程序311,该程序被执行时实现如实施例一中所述的方法。
由于本发明实施例四所介绍的计算机可读存储介质为实施本发明实施例一中最小均方误差准则的自适应隐私保护方法所采用的计算机可读存储介质,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该计算机可读存储介质的具体结构及变形,故而在此不再赘述。凡是本发明实施例一的方法所采用的计算机可读存储介质都属于本发明所欲保护的范围。
实施例五
基于同一发明构思,本申请还提供了一种计算机设备,如图6所示,包括存储器401、处理器402及存储在存储器上并可在处理器上运行的计算机程序403,处理器执行上述程序时实现实施例一中的方法。
由于本发明实施例五所介绍的计算机设备为实施本发明实施例一中最小均方误差准则的自适应隐私保护方法所采用的计算机设备,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该计算机设备的具体结构及变形,故而在此不再赘述。凡是本发明实施例一中方法所采用的计算机设备都属于本发明所欲保护的范围。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.基于最小均方误差准则的自适应隐私保护方法,其特征在于,包括:
数据聚合者接收本地端用户发送的隐私保护等级;
根据隐私保护等级对本地端用户进行分群,将具有相同隐私保护等级的用户划分到同一个子群体中;
根据本地化差分隐私技术和隐私保护等级确定最佳的扰动概率,基于最小均方误差准则,确定出两种经典本地化差分隐私技术的自适应边界,根据自适应边界选择最佳的数据扰动方式,并将自适应结果发送给对应的子群体中的用户,以使每个子群体中的用户采用对应的最佳的数据扰动方式对其隐私数据进行扰动处理,并采用最佳的扰动概率执行隐私保护操作,得到扰动后的数据,并发送给数据聚合者,其中,自适应结果包括最佳的数据扰动方式和最佳的扰动概率;
基于最小均方误差构建加权因子,对来自不同隐私保护等级下各子群体发送的扰动后的数据进行聚合,得到本地端用户隐私数据的统计估计。
2.如权利要求1所述的基于最小均方误差准则的自适应隐私保护方法,其特征在于,两种经典本地化差分隐私技术包括basic RAPPOR技术或k-RR技术,根据本地化差分隐私技术和隐私保护等级确定最佳的扰动概率,包括:
当采用的本地化差分隐私技术为basic RAPPOR技术时,在∈隐私保护等级下,针对二进制编码后隐私数据的每一个比特采用的最佳的扰动概率为:
Figure FDA0003981746150000011
其中,∈隐私保护等级;
当采用的本地化差分隐私技术为k-RR技术时,在∈隐私保护等级下,针对二进制编码后隐私数据的每一个比特采用的最佳的扰动概率为:
Figure FDA0003981746150000012
上式表示对隐私数据以p的概率保持原值,以(1-p)/的概率扰动输出其他k-1种的任意一种,k为不同隐私数据的个数。
3.如权利要求1所述的基于最小均方误差准则的自适应隐私保护方法,其特征在于,两种经典本地化差分隐私技术包括basic RAPPOR技术或k-RR技术,基于最小均方误差准则,确定出两种经典本地化差分隐私技术的自适应边界,包括:
基于最大似然估计准则计算采用basic RAPPOR技术时隐私分布的第一估计误差:
Figure FDA0003981746150000021
基于最大似然估计准则计算采用k-RR技术时隐私分布的第二估计误差:
Figure FDA0003981746150000022
其中,n表示数据量或用户个数,∈为隐私保护等级,也称为隐私预算,xi为第i种隐私数据,隐私数据xi的真实概率为Pi,k为不同隐私数据的个数,
Figure FDA0003981746150000023
为第一估计误差,
Figure FDA0003981746150000024
为第二估计误差;
根据第一估计误差和第二估计误差确定出两种经典本地化差分隐私技术的自适应边界。
4.如权利要求3所述的基于最小均方误差准则的自适应隐私保护方法,其特征在于,根据第一估计误差和第二估计误差确定出两种经典本地化差分隐私技术的自适应边界,包括:
构建函数
Figure FDA0003981746150000025
则ΔMSE的零点时的取值为:
Figure FDA0003981746150000026
其中,u和v的表达式为:
Figure FDA0003981746150000027
Figure FDA0003981746150000028
将∈*作为最小MSE准则下basic RAPPOR技术和k-RR技术的最佳自适应边界。
5.如权利要求1所述的基于最小均方误差准则的自适应隐私保护方法,其特征在于,基于最小均方误差构建加权因子,对来自不同隐私保护等级下各子群体发送的扰动后的数据进行聚合,得到本地端用户隐私数据的统计估计,包括:
基于最小均方误差的期望构建加权因子:
Figure FDA0003981746150000029
wτ为第τ个子群体的加权因子且满足
Figure FDA00039817461500000210
l为计数符号,取值从1到m,MSEτ是第τ个子群体在隐私保护等级∈τ下的估计分布的均方误差值;
基于构建的加权因子对m个子群体中的扰动后的数据进行加权聚合,得到本地端用户隐私数据的统计估计:
Figure FDA00039817461500000211
其中,
Figure FDA00039817461500000212
为针对第τ个子群体隐私数据的估计分布,m为子群体的总数,
Figure FDA00039817461500000213
为本地端用户隐私数据的统计估计。
6.如权利要求1所述的基于最小均方误差准则的自适应隐私保护方法,其特征在于,所述方法还包括:采用多重扰动的数据扩展策略对子群体中的数据进行扩展,用以等效增加隐私需求高的隐私子群体的数量。
7.基于最小均方误差准则的自适应隐私保护装置,其特征在于,包括:
隐私保护等级接收模块,数据聚合者接收本地端用户发送的隐私保护等级;
群体划分模块,用于根据隐私保护等级对本地端用户进行分群,将具有相同隐私保护等级的用户划分到同一个子群体中;
自适应结果生成模块,用于根据本地化差分隐私技术和隐私保护等级确定最佳的扰动概率,基于最小均方误差准则,确定出两种经典本地化差分隐私技术的自适应边界,根据自适应边界选择最佳的数据扰动方式,并将自适应结果发送给对应的子群体中的用户,以使每个子群体中的用户采用对应的最佳的数据扰动方式对其隐私数据进行扰动处理,并采用最佳的扰动概率执行隐私保护操作,得到扰动后的数据,并发送给数据聚合者,其中,自适应结果包括最佳的数据扰动方式和最佳的扰动概率;
加权聚合模块,用于基于最小均方误差构建加权因子,对来自不同隐私保护等级下各子群体发送的扰动后的数据进行聚合,得到本地端用户隐私数据的统计估计。
8.基于最小均方误差准则的自适应隐私保护系统,其特征在于,包括如权利要求7所述的基于最小均方误差准则的自适应隐私保护装置以及本地用户端,其中,本地用户端用于向数据聚合者发送隐私保护等级,根据数据聚合者发送的自适应结果选择最佳的扰动方式对隐私数据进行扰动处理,并采用最佳的扰动概率执行隐私保护操作得到扰动后的数据,并发送给数据聚合者。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被执行时实现如权利要求1至6中任一项权利要求所述的方法。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6中任一项权利要求所述的方法。
CN202211578970.0A 2022-12-05 2022-12-05 基于最小均方误差准则的自适应隐私保护方法、装置及系统 Pending CN115879152A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211578970.0A CN115879152A (zh) 2022-12-05 2022-12-05 基于最小均方误差准则的自适应隐私保护方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211578970.0A CN115879152A (zh) 2022-12-05 2022-12-05 基于最小均方误差准则的自适应隐私保护方法、装置及系统

Publications (1)

Publication Number Publication Date
CN115879152A true CN115879152A (zh) 2023-03-31

Family

ID=85766753

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211578970.0A Pending CN115879152A (zh) 2022-12-05 2022-12-05 基于最小均方误差准则的自适应隐私保护方法、装置及系统

Country Status (1)

Country Link
CN (1) CN115879152A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116489636A (zh) * 2023-04-21 2023-07-25 北京交通大学 一种云边协同场景下的个性化差分隐私保护方法
CN117455722A (zh) * 2023-12-26 2024-01-26 湖北工业大学 基于个性化差分隐私保护的智能电网数据聚合方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116489636A (zh) * 2023-04-21 2023-07-25 北京交通大学 一种云边协同场景下的个性化差分隐私保护方法
CN117455722A (zh) * 2023-12-26 2024-01-26 湖北工业大学 基于个性化差分隐私保护的智能电网数据聚合方法及系统
CN117455722B (zh) * 2023-12-26 2024-03-22 湖北工业大学 基于个性化差分隐私保护的智能电网数据聚合方法及系统

Similar Documents

Publication Publication Date Title
CN113557511B (zh) 生成加密数据结构的方法和系统
CN115879152A (zh) 基于最小均方误差准则的自适应隐私保护方法、装置及系统
CN111669366B (zh) 一种本地化差分隐私数据交换方法及存储介质
CN109949176B (zh) 一种基于图嵌入的社交网络中异常用户检测方法
CN112714106A (zh) 一种基于区块链的联邦学习搭便车攻击防御方法
CN112399413B (zh) 基于深度支持向量描述方法的物理层身份认证方法
CN115358487A (zh) 面向电力数据共享的联邦学习聚合优化系统及方法
CN113627479B (zh) 一种基于半监督学习的图数据异常检测方法
CN110032470B (zh) 一种基于哈夫曼树的异构部分重复码的构造方法
Chen et al. Distinct counting with a self-learning bitmap
Hajek et al. Community recovery in a preferential attachment graph
CN115098882B (zh) 基于增量学习的本地差分隐私的多维数据发布方法及系统
CN116776155A (zh) 一种基于联邦学习的模型训练方法、装置、设备和介质
CN114116705B (zh) 联合学习中确定参与方贡献值的方法及装置
Yuan et al. Incentivizing federated learning under long-term energy constraint via online randomized auctions
CN115481415A (zh) 基于纵向联邦学习的通信成本优化方法、系统、设备及介质
CN111581442A (zh) 一种实现图嵌入的方法、装置、计算机存储介质及终端
CN117574421A (zh) 基于梯度动态裁剪的联邦数据分析系统及方法
CN115630398A (zh) 基于小样本数据的个性化差分隐私保护方法、装置及系统
Zhou et al. A Concurrent Federated Reinforcement Learning for IoT Resources Allocation With Local Differential Privacy
CN114298319B (zh) 联合学习贡献值的确定方法、装置、电子设备及存储介质
Tian et al. A novel artificial immune network algorithm
Tian et al. FedACQ: adaptive clustering quantization of model parameters in federated learning
Gorbenko et al. Analysis of asymmetric NTRU prime IIT Ukraine encryption algorithm with regards to known attacks
CN114116740B (zh) 用于联合学习中确定参与方贡献度的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination