CN115130119A - 一种基于本地差分隐私的效用优化集合数据保护方法 - Google Patents

一种基于本地差分隐私的效用优化集合数据保护方法 Download PDF

Info

Publication number
CN115130119A
CN115130119A CN202210618868.2A CN202210618868A CN115130119A CN 115130119 A CN115130119 A CN 115130119A CN 202210618868 A CN202210618868 A CN 202210618868A CN 115130119 A CN115130119 A CN 115130119A
Authority
CN
China
Prior art keywords
data
user
server
differential privacy
field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210618868.2A
Other languages
English (en)
Other versions
CN115130119B (zh
Inventor
朱友文
曹依然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202210618868.2A priority Critical patent/CN115130119B/zh
Publication of CN115130119A publication Critical patent/CN115130119A/zh
Application granted granted Critical
Publication of CN115130119B publication Critical patent/CN115130119B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/64Protecting data integrity, e.g. using checksums, certificates or signatures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于本地差分隐私的效用优化集合数据保护方法,属于信息安全领域。该方法包括服务器将原始数据域划分为敏感数据域和非敏感数据域,并将划分结果,隐私预算和数据条数公开;用户对自己的集合数据进行采样或填充,然后根据数据所属类别,在本地对其进行扰动,并将结果发送给服务器。服务器收集用户的扰动后数据,分析计算出原始数据的频率估计结果。本发明可以抵抗具有任意背景知识的攻击者和防止来自不可信第三方服务器的隐私攻击;本发明可以在保证敏感数据保护力度不降低的前提下,提高整体数据效用,进而提高服务器统计结果的准确度。

Description

一种基于本地差分隐私的效用优化集合数据保护方法
技术领域
本发明属于信息安全领域,具体涉及一种基于本地差分隐私的效用优化集合数据保护方法。
背景技术
随着经济科技的迅速发展,智能终端等设备也愈发普及,随之产生的用户数据被相关公司收集、研究。集合数据就是现实生活中一种很常见的数据形式,有着广泛的应用场景。通过分析集合数据,可以挖掘出它们中的隐藏信息,进而为用户提供更好的服务。如收集用户的视频浏览记录,分析用户偏好并完善推荐系统,收集用户的医疗记录,为用户提供疾病的预期诊断。但是同时,这些数据中也往往包含着大量的隐私信息,如果直接将其提供给其他人使用,会对用户的人身、财产安全造成极大的威胁,这也会使得用户共享数据的意愿降低。因此,如何在保护用户隐私的前提下,对数据进行收集、分析、发布,是一个亟待解决的问题。
差分隐私是由文献[Dwork C.“Differential privacy:A survey of results”,International conference on theory and applications of models ofcomputation.Springer,Berlin,Heidelberg,2008:1-19.]提出的一种隐私保护模型,与其他隐私保护技术不同的是,差分隐私有着严格的数学形式化安全性证明支撑和高效低开销的特点,并且可以对隐私保护程度进行量化,同时不需要考虑攻击者拥有多少背景知识。在传统差分隐私模型下,用户需要将自己的真实数据发送给服务器,由服务器来完成对数据的扰动和发布,这就意味着必须保证服务器是绝对可信的。但是在实际应用中,很难去找到这样一个完全可信的第三方,因此后人提出了本地差分隐私。
本地差分隐私摒弃了对可信第三方的需求,同时继承了差分隐私的优点,是差分隐私在本地化场景下的应用。通过将数据扰动的步骤从服务器端迁移到用户端,并且只向服务器发送扰动后的数据,使得在满足数据统计分析需求的前提下,可以抵抗来自不可信第三方的攻击,大大提高了模型的实用性。本地差分隐私的形式化定义如下:一个随机扰动算法M:X→Y,其中X为定义域,Y为值域。当且仅当,对于任意两个用户的数据x,x′∈X,以及任意可能的输出y∈Y满足不等式
Figure BDA0003675505710000021
时,该扰动算法满足ε-本地差分隐私。该不等式中的ε被称为隐私预算,用于衡量数据域范围内任意两条数据不可区分性的程度,也就是对用户数据的保护力度。当隐私预算ε越小时,不可区分性越高,隐私保护的力度越大,但相应的,最后数据的估计准确度也会越低;隐私预算ε越大,不可区分性越低,隐私保护的力度越小,估计准确度则越高。因此在实际应用时,需要对隐私保护力度和数据效用好坏做一个权衡。
现有本地差分隐私下的集合数据频率估计机制对所有数据采用相同的扰动方式进行扰动,但是在实际应用中,不同数据的敏感度是不一样的,例如在收集用户购物记录时,“药品”类要比“日用品”类更为敏感,收集用户观看电影的记录时,“恐怖”、“惊悚”这些类型要比“喜剧”、“爱情”更为敏感。如果直接使用同样方式扰动不同的数据,会过度保护低敏感性数据,进而导致统计结果准确度降低。
发明内容
本发明针对现有本地差分隐私下的集合数据保护保护方案对敏感性差异考虑不足这一问题,提供一种基于本地差分隐私的效用优化集合数据保护方法。
本发明所述的一种基于本地差分隐私的效用优化集合数据保护方法,包括以下步骤:
S1、服务器将原始数据域X划分为敏感数据域XS和非敏感数据域XN,根据实际情况确定用户数据指定条数m,虚假数据域XT和所使用的隐私预算ε,并把XS,XN,XT,m和ε公开给用户;
S2、用户对自己的数据进行预处理,若数据条数大于m,则从中随机抽取m条,若数据条数小于m,则使用虚假数据补齐到m条,虚假数据由用户自己从XT选择,虚假数据也属于非敏感数据;
s′表示用户预处理后的数据,即s′={x1,x2,…,xm},X′表示全体数据域,即X′=X∩XT
S3、用户根据s′中数据所属类别进行扰动,并把扰动后的数据和扰动中使用的哈希函数发送给服务器;
S4、服务器根据用户发送的扰动后数据和扰动中使用的哈希函数进行统计分析,估算出原始数据的频率分布结果。
进一步的,在步骤(S 3)中,用户端原始数据的扰动包括如下过程:
S31、由用户自己选择哈希函数h:X→[0.0,1.0),即哈希函数h的输入域为全体数据域X′,输出域为[0.0,1.0),然后对s′中每一条数据进行哈希,得到哈希后的数据v={h(x1),h(x2),…,h(xm)}={v1,v2,…,vm};
S32、计算覆盖长度
Figure BDA0003675505710000031
正则化因子Ω=mpeε+1-mp,覆盖区域Cv={t|t∈[vi,vi+p)或[0,vi+p-1),i∈[1,m]}和覆盖区域的总长度l,然后按照如下公式所示概率密度得到y0
Figure BDA0003675505710000032
S33、令
Figure BDA0003675505710000033
针对s′中每一条数据xi,若xi∈s′N
Figure BDA0003675505710000034
Figure BDA0003675505710000035
Figure BDA0003675505710000036
则将xi加入集合y1中;
S34、将h,y0和y1发送给服务器。
在步骤(S4)中,服务器估算频率分布结果包括如下步骤:
S41、服务器收集到全部n个参与者发送的扰动结果,将结果分为两组,第一组是所有用户发来的y0和h,第二组是所有用户发来的y1
S42、计算覆盖长度
Figure BDA0003675505710000037
正则化因子Ω=mpeε+1-mp,正确覆盖概率
Figure BDA0003675505710000038
错误覆盖概率Pf=p;
S43、针对XS中每条数据x,令Fx=0,遍历所有用户发来的y0和h,若y0-p<h(x)≤y0或y0-p+1<h(x)<1,则Fx=Fx+1;
其中,原始数据中x的估计频率
Figure BDA0003675505710000039
计算方式如下:
Figure BDA00036755057100000310
S44、针对XN中每条数据x,令Fx=0,遍历所有用户发来的y1,若x∈y1,则Fx=Fx+1;
其中,原始数据中x的估计频率
Figure BDA00036755057100000311
计算方式如下:
Figure BDA00036755057100000312
进一步的,该方法中,用户数据指定条数m由服务器直接确定或者按照一定比例确定,用户在本地对自身数据条数进行扰动,并将扰动后的结果发送给服务器,服务器再聚合计算得到用户数据条数估计值。
所述方法,对于虚假数据域XT,其确定计算过程包括如下过程:
a)若原始数据域连续,则首先找出原始数据域X的边界值Xu和Xd,Xu表示上边界,Xd表示下边界,然后根据上边界和下边界进行扩展,构造虚假数据集XT,若m为偶数,则
Figure BDA0003675505710000041
若m为奇数,则
Figure BDA0003675505710000042
Figure BDA0003675505710000043
若有数据范围限定导致无法向其中一端继续扩展,则向另一端继续扩展直至选够m条虚假数据;
b)若原始数据域非连续,则首先找出原始数据域X的边缘数据域XE,即若x属于XE,则必有数据x′与x相邻且
Figure BDA0003675505710000044
然后通过向XE中的数据添加拉普拉斯噪声,挑选出m条不在X中的虚假数据构成XT
有益效果:与现有技术相比,本发明采用了本地差分隐私的方法保护用户提交的敏感数据,可以抵抗具有任意背景知识的攻击者和防止来自不可信第三方服务器的隐私攻击;本发明通过降低对非敏感数据的保护力度,在原始方案的基础上提高了整体的数据效用和频率估计结果的准确度。
附图说明
图1为本发明实例的用户端流程示意图;
图2为本发明实例的服务器端流程示意图。
具体实施方式
以下结合具体实施例对上述方案做进一步说明。应理解,这些实施例是用于说明本发明而不限于限制本发明的范围。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明所述的是一种基于本地差分隐私的效用优化集合数据保护方法,所要解决问题的具体设置环境可以为:服务器收集用户数据,如位置数据,网页浏览数据,电影评分数据等,攻击者可能窃听用户提交数据的过程,攻击者也可能通过黑客攻击的方式从服务器端获取到用户提交的数据,使得参与者的隐私受到危害。本发明通过让参与者在自己本地扰动数据之后再提交,同时服务器可以根据接收到的扰动数据进行聚合,计算得到最终的统计结果,从而保障原始数据的安全,即无论通过何种手段,攻击者只能拿到用户扰动后的数据。
具体的,本发明所述的基于本地差分隐私的效用优化集合数据保护方法实施步骤如下:
S1:服务器将原始数据域X划分为敏感数据域XS和非敏感数据域XN,根据实际情况确定用户数据指定条数m,虚假数据域XT和所使用的隐私预算ε,并把XS,XN,XT,m和ε公开给用户。
关于确定m的方式,具体可以按照如下三种方式确定:
a.服务器根据实际情况直接指定
b.用户数据条数不需要保护时:所有用户将自己的条数都发给服务器,服务器计算得到m,满足90%的用户数据条数都小于等于m。
c.用户数据条数需要保护时:抽取一部分用户,如10%的用户,由用户在本地对自身数据条数进行扰动,并将扰动后的结果发送给服务器,服务器再使用相应的聚合方法计算得到用户数据条数估计值,这里可以选用OLH,OUE,GRR等本地差分隐私下的类别数据频率估计机制。然后服务器计算得到m,满足90%的用户数据条数估计值都小于等于m。并且为了保证整体隐私预算,这部分用户不再参与后续步骤S3和步骤S4。
进一步的,该步骤中,在确定了m后,构造一个大小为m的虚假数据集。存在如两种情况:
a.若原始数据域连续,则首先找出原始数据域X的边界值Xu和Xd,Xu表示上边界,Xd表示下边界,然后根据上边界和下边界进行扩展,构造虚假数据集XT,若m为偶数,则
Figure BDA0003675505710000051
若m为奇数,则
Figure BDA0003675505710000052
Figure BDA0003675505710000053
若有数据范围限定导致无法向其中一端继续扩展,则向另一端继续扩展直至选够m条虚假数据。
b.若原始数据域非连续,则首先找出原始数据域X的边缘数据域XE,即若x属于XE,则必有数据x′与x相邻且
Figure BDA0003675505710000054
然后通过向XE中的数据添加拉普拉斯噪声,挑选出m条不在X中的虚假数据构成XT
S2:如果用户不满意对当前服务器公布的针对敏感数据的保护力度,或者是认为存在非敏感数据也需要保护,可以选择将这部分数据从自己的数据集合中剔除,然后用户再对自己的数据进行预处理,若数据条数大于m,则从中随机抽取m条,若数据条数小于m,则使用虚假数据补齐到m条,虚假数据由用户自己从XT选择,虚假数据也属于非敏感数据。s′表示用户预处理后的数据,即s′={x1,x2,…,xm},X′表示全体数据域,即X′=X∩XT
S3:用户根据s′中数据所属类别,对之进行扰动,并把扰动后的数据和扰动中使用的哈希函数发送给服务器。
进一步的,在步骤S3中,用户端数据处理步骤为:
S31:由用户自己选择哈希函数h:X→[0.0,1.0),即哈希函数h的输入域为全体数据域X′,输出域为[0.0,1.0),然后对s′中每一条数据进行哈希,得到哈希后的数据v={h(x1),h(x2),…,h(xm)}={v1,v2,…,vm}。
说明是,步骤(S31)中,可以由服务器指定一系列哈希函数H,然后用户从中挑选一个使用。
S32:计算覆盖长度
Figure BDA0003675505710000061
正则化因子Ω=mpeε+1-mp,覆盖区域Cv={t|t∈[vi,vi+p)或[0,vi+p-1),i∈[1,m]}和覆盖区域的总长度l,然后按照如下公式所示概率密度得到y0
Figure BDA0003675505710000062
S33:令
Figure BDA0003675505710000063
针对s′中每一条数据xi,若xi∈s′N
Figure BDA0003675505710000064
Figure BDA0003675505710000065
Figure BDA0003675505710000066
则将xi加入集合y1中。
S34:将h,y0和y1发送给服务器。
S4:服务器根据用户发送的扰动后数据和扰动中使用的哈希函数进行统计分析,估算出原始数据的频率分布结果。
进一步的,在步骤S4中,服务器估算原始数据频率分布结果步骤为:
S41:服务器收集到全部n个参与者发送的扰动结果,将结果分为两组,第一组是所有用户发来的y0和h,第二组是所有用户发来的y1
S42:计算覆盖长度
Figure BDA0003675505710000067
正则化因子Ω=mpeε+1-mp,正确覆盖概率
Figure BDA0003675505710000068
错误覆盖概率Pf=p。
S43:针对XS中每条数据x,令Fx=0,遍历所有用户发来的y0和h,若y0-p<h(x)≤y0或y0-p+1<h(x)<1,则Fx=Fx+1。相应的,原始数据中x的估计频率
Figure BDA0003675505710000071
计算方式如下:
Figure BDA0003675505710000072
S44:针对XN中每条数据x,令Fx=0,遍历所有用户发来的y1,若x∈y1,则Fx=Fx+1。相应的,原始数据中x的估计频率
Figure BDA0003675505710000073
计算方式如下:
Figure BDA0003675505710000074
结合图1,基于本地差分隐私的效用优化集合数据保护方法中用户端具体流程步骤如下:
步骤一:用户服务器得到敏感数据域XS,非敏感数据域XN,虚假数据域XT,集合数据条数m和隐私预算ε。
步骤二:用户判断自己的集合数据条数是否为m,若是,执行步骤四;若不是,执行步骤三。
步骤三:若用户数据条数小于m,则使用XT中的虚假数据将其填充到m条;若大于m,则从中抽取m条。
步骤四:用户使用哈希函数h对集合数据s′中每一条数据进行哈希,得到哈希后的数据v={v1,v2,…,vm}。
步骤五:以如下公式所示概率密度得到y0
Figure BDA0003675505710000075
其中覆盖长度
Figure BDA0003675505710000076
正则化因子Ω=mpeε+1-mp,覆盖区域Cv={t|t∈[vi,vi+p)或[0,vi+p-1),i∈[1,m]},l为覆盖区域的总长度。令
Figure BDA0003675505710000077
针对s′中每一条数据xi,若xi∈s′N
Figure BDA0003675505710000078
Figure BDA0003675505710000079
则将xi加入集合y1中。
步骤六:将使用的哈希函数h和扰动结果y0,y1发送给服务器。
结合图2,基于本地差分隐私的效用优化集合数据保护方法中服务器端具体流程步骤如下:
步骤一:服务器确定敏感数据域XS,非敏感数据域XN,虚假数据域XT,集合数据条数m和隐私预算ε,并发送给所有用户。
步骤二:服务器收集到全部n个参与者发送的扰动结果,将结果分为两组,第一组是所有用户发来的y0和h,第二组是所有用户发来的y1
步骤三:遍历原始数据域X中所有数据x。
步骤四:判断数据x是否属于XS,若是,执行步骤五;否则,执行步骤六。
步骤五:令Fx=0,遍历所有用户发来的y0和h,若y0-p<h(x)≤y0或y0-p+1<h(x)<1,则Fx=Fx+1。相应的,x的估计频率
Figure BDA0003675505710000081
计算方式如下:
Figure BDA0003675505710000082
步骤六:令Fx=0,遍历所有用户发来的y1,若x∈y1,则Fx=Fx+1。相应的,x的估计频率
Figure BDA0003675505710000083
计算方式如下:
Figure BDA0003675505710000084
步骤七:服务器得到所有数据的频率估计结果。
下面是基于本地差分隐私的效用优化集合数据保护方法的实验结果。实验中采用的数据集是Anime Recommendations Database,这是Kaggle上的一个数据集,用于推荐动漫,里面记录了用户对12994部动漫的评分,每条评分都是一条记录,共有7813737条记录。本发明将每位用户评分的动漫作为一条集合数据,并将类别为成人、惊悚、恐怖的动漫作为敏感数据,处理后的数据条数为71662条,敏感数据域的大小|XS|为1748。在实验中划分了7个隐私级别,隐私预算分别为0.2,0.3,0.5,1.0,2.0,3.0,5.0,用户数据条数m设定为231。在实验中每个用户在本地扰动自己的数据,并将结果发送给服务器,服务器统计并计算得到最终的频率分布结果。
基于本地差分隐私的效用优化集合数据保护方法在动漫数据集上的实验结果如表1和表2,避免随机性影响实验结果,将实验进行了10次,使用均方误差(mean-squareerror,MSE)作为实验的评估标准,均方误差是通过计算数据的频率估计结果
Figure BDA0003675505710000085
和真实频率fx差的平方得到的,即
Figure BDA0003675505710000086
表1不同隐私预算下的实验结果
Figure BDA0003675505710000087
Figure BDA0003675505710000091
表2是否区分敏感性数据的实验结果
Figure BDA0003675505710000092
表2是否区分敏感性数据的实验结果(续)
Figure BDA0003675505710000093
通过表1可以看到,虽然基于本地差分隐私的效用优化集合数据保护方法的频率估计结果与真实频率之间存在一定的偏差,但是这个偏差比较小,在服务器可以接受的范围之内,并且也可以通过增大隐私预算的方法来进一步地提高估计准确度。同时,虽然10次实验结果略有不同,但是波动程度都很小。此外,如果直接使用不加隐私保护的方式收集用户数据,那用户很可能因为担心隐私泄露问题而不愿意在提交自己的数据,或是提交一些虚假数据,这对服务器的数据分析工作是非常不利的。表2则比较了是否区分敏感性数据,可以看出,区分敏感与否可以将MSE降低一个数量级,也就是说,通过降低对非敏感数据的保护力度,可以大大提高估计准确性,即提高整体的数据效用。
本发明在可以保护用户的原始数据不被攻击者获取,抵抗具有任意背景知识的攻击者,和防止来自不可信第三方的隐私攻击的前提下,解决了现有本地差分隐私下的集合数据频率估计机制对数据敏感性差异考虑不够这一问题,通过适当降低对非敏感数据的保护力度,提高了整体的数据效用和频率估计准确性。

Claims (5)

1.一种基于本地差分隐私的效用优化集合数据保护方法,其特征在于:包括以下步骤:
S1、服务器将原始数据域X划分为敏感数据域XS和非敏感数据域XN,且确定用户数据指定条数m,虚假数据域XT和所使用的隐私预算ε,并把XS,XN,XT,m和ε公开给用户;
S2、用户对自己的数据进行预处理,若数据条数大于m,则从中随机抽取m条,若数据条数小于m,则使用虚假数据补齐到m条,虚假数据由用户自己从XT选择,虚假数据也属于非敏感数据;
s′表示用户预处理后的数据,即s′={x1,x2,…,xm},X′表示全体数据域,即X′=X∩XT
S3、用户根据s′中数据所属类别进行扰动,并把扰动后的数据和扰动中使用的哈希函数发送给服务器;
S4、服务器根据用户发送的扰动后数据和扰动中使用的哈希函数进行统计分析,估算出原始数据的频率分布结果。
2.根据权利要求1所述的基于本地差分隐私的效用优化集合数据保护方法,其特征在于:在步骤(S3)中,用户端原始数据的扰动包括如下过程:
S31、由用户自己选择哈希函数h:X→[0.0,1.0),即哈希函数h的输入域为全体数据域X′,输出域为[0.0,1.0),然后对s′中每一条数据进行哈希,得到哈希后的数据v={h(x1),h(x2),…,h(xm)}={v1,v2,…,vm};
S32、计算覆盖长度
Figure FDA0003675505700000011
正则化因子Ω=mpeε+1-mp,覆盖区域Cv={t|t∈[vi,vi+p)或[0,vi+p-1),i∈[1,m]}和覆盖区域的总长度l,然后按照如下公式所示概率密度得到y0
Figure FDA0003675505700000012
S33、令
Figure FDA0003675505700000013
针对s′中每一条数据xi,若xi∈s′N
Figure FDA0003675505700000014
Figure FDA0003675505700000015
Figure FDA0003675505700000016
则将xi加入集合y1中;
S34、将h,y0和y1发送给服务器。
3.根据权利要求1所述的基于本地差分隐私的效用优化集合数据保护方法,其特征在于:在步骤(S4)中,服务器估算频率分布结果包括如下步骤:
S41、服务器收集到全部n个参与者发送的扰动结果,将结果分为两组,第一组是所有用户发来的y0和h,第二组是所有用户发来的y1
S42、计算覆盖长度
Figure FDA0003675505700000021
正则化因子Ω=mpeε+1-mp,正确覆盖概率
Figure FDA0003675505700000022
错误覆盖概率Pf=p;
S43:针对XS中每条数据x,令Fx=0,遍历所有用户发来的y0和h,若y0-p<h(x)≤y0或y0-p+1<h(x)<1,则Fx=Fx+1;
其中,原始数据中x的估计频率
Figure FDA0003675505700000023
计算方式如下:
Figure FDA0003675505700000024
S44、针对XN中每条数据x,令Fx=0,遍历所有用户发来的y1,若x∈y1,则Fx=Fx+1;
其中,原始数据中x的估计频率
Figure FDA0003675505700000025
计算方式如下:
Figure FDA0003675505700000026
4.根据权利要求1所述的基于本地差分隐私的效用优化集合数据保护方法,其特征在于:该方法中,用户数据指定条数m由服务器直接确定或者按照一定比例确定,用户在本地对自身数据条数进行扰动,并将扰动后的结果发送给服务器,服务器再聚合计算得到用户数据条数估计值。
5.根据权利要求1所述的基于本地差分隐私的效用优化集合数据保护方法,其特征在于:对于虚假数据域XT,其确定计算过程包括如下过程:
a)若原始数据域连续,则首先找出原始数据域X的边界值Xu和Xd,Xu表示上边界,Xd表示下边界,然后根据上边界和下边界进行扩展,构造虚假数据集XT,若m为偶数,则
Figure FDA0003675505700000027
若m为奇数,则
Figure FDA0003675505700000028
Figure FDA0003675505700000029
若有数据范围限定导致无法向其中一端继续扩展,则向另一端继续扩展直至选够m条虚假数据;
b)若原始数据域非连续,则首先找出原始数据域X的边缘数据域XE,即若x属于XE,则必有数据x′与x相邻且
Figure FDA00036755057000000210
然后通过向XE中的数据添加拉普拉斯噪声,挑选出m条不在X中的虚假数据构成XT
CN202210618868.2A 2022-06-01 2022-06-01 一种基于本地差分隐私的效用优化集合数据保护方法 Active CN115130119B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210618868.2A CN115130119B (zh) 2022-06-01 2022-06-01 一种基于本地差分隐私的效用优化集合数据保护方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210618868.2A CN115130119B (zh) 2022-06-01 2022-06-01 一种基于本地差分隐私的效用优化集合数据保护方法

Publications (2)

Publication Number Publication Date
CN115130119A true CN115130119A (zh) 2022-09-30
CN115130119B CN115130119B (zh) 2024-04-12

Family

ID=83378256

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210618868.2A Active CN115130119B (zh) 2022-06-01 2022-06-01 一种基于本地差分隐私的效用优化集合数据保护方法

Country Status (1)

Country Link
CN (1) CN115130119B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115510472A (zh) * 2022-11-23 2022-12-23 南京邮电大学 一种面向云边聚合系统的多重差分隐私保护方法及系统
CN115828171A (zh) * 2023-02-13 2023-03-21 支付宝(杭州)信息技术有限公司 一种端云协同执行业务的方法、装置、介质及设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109543842A (zh) * 2018-11-02 2019-03-29 西安交通大学 具有本地隐私保护的高维群智感知数据的概率分布估计方法
CN110598447A (zh) * 2019-09-17 2019-12-20 西北大学 一种满足ε-差分隐私的t-closeness隐私保护方法
WO2020230061A1 (en) * 2019-05-14 2020-11-19 Telefonaktiebolaget Lm Ericsson (Publ) Utility optimized differential privacy system
WO2020249968A1 (en) * 2019-06-12 2020-12-17 Privitar Limited Method or system for querying a sensitive dataset
CN113297621A (zh) * 2021-06-10 2021-08-24 南京航空航天大学 一种基于个性化本地差分隐私的数据收集方法
CN113361694A (zh) * 2021-06-30 2021-09-07 哈尔滨工业大学 一种应用差分隐私保护的分层联邦学习方法及系统
CN114091100A (zh) * 2021-11-23 2022-02-25 北京邮电大学 一种满足本地差分隐私的轨迹数据收集方法及系统
CN114372527A (zh) * 2022-01-10 2022-04-19 辽宁工业大学 一种采用主成分分析的高维数据差分隐私发布方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109543842A (zh) * 2018-11-02 2019-03-29 西安交通大学 具有本地隐私保护的高维群智感知数据的概率分布估计方法
WO2020230061A1 (en) * 2019-05-14 2020-11-19 Telefonaktiebolaget Lm Ericsson (Publ) Utility optimized differential privacy system
WO2020249968A1 (en) * 2019-06-12 2020-12-17 Privitar Limited Method or system for querying a sensitive dataset
US20220277097A1 (en) * 2019-06-12 2022-09-01 Privitar Limited Method or system for querying a sensitive dataset
CN110598447A (zh) * 2019-09-17 2019-12-20 西北大学 一种满足ε-差分隐私的t-closeness隐私保护方法
CN113297621A (zh) * 2021-06-10 2021-08-24 南京航空航天大学 一种基于个性化本地差分隐私的数据收集方法
CN113361694A (zh) * 2021-06-30 2021-09-07 哈尔滨工业大学 一种应用差分隐私保护的分层联邦学习方法及系统
CN114091100A (zh) * 2021-11-23 2022-02-25 北京邮电大学 一种满足本地差分隐私的轨迹数据收集方法及系统
CN114372527A (zh) * 2022-01-10 2022-04-19 辽宁工业大学 一种采用主成分分析的高维数据差分隐私发布方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
XIAOLAN GU 等: "Supporting Both Range Queries and Frequency Estimation with Local Differential Privacy", 2019 IEEE CONFERENCE ON COMMUNICATIONS AND NETWORK SECURITY(CNS), 19 August 2019 (2019-08-19), pages 124 - 132 *
YOUWEN ZHU 等: "Heavy Hitter Identification Over Large-Domain Set-Valued Data With Local Differential Privacy", IEEE TRANSACTIONS ON INFORMATION FORENSICS AND SECURITY, vol. 19, 16 October 2023 (2023-10-16), pages 414 - 426, XP011953679, DOI: 10.1109/TIFS.2023.3324726 *
任雪斌 等: "基于Bayes网络的高维感知数据本地隐私保护发布", 中国科学:信息科学, vol. 49, no. 12, 20 December 2019 (2019-12-20), pages 1586 - 1605 *
吴云乘 等: "一种基于时空相关性的差分隐私轨迹保护机制", 计算机学报, vol. 41, no. 02, 28 March 2017 (2017-03-28), pages 309 - 322 *
曹依然 等: "效用优化的本地差分隐私集合数据频率估计机制", 计算机研究与发展, vol. 59, no. 10, 15 October 2022 (2022-10-15), pages 2261 - 2274 *
谢荣 等: "基于差分隐私的敏感数据挖掘技术研究", 上海电力大学学报, vol. 36, no. 04, 15 August 2020 (2020-08-15), pages 401 - 407 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115510472A (zh) * 2022-11-23 2022-12-23 南京邮电大学 一种面向云边聚合系统的多重差分隐私保护方法及系统
CN115828171A (zh) * 2023-02-13 2023-03-21 支付宝(杭州)信息技术有限公司 一种端云协同执行业务的方法、装置、介质及设备

Also Published As

Publication number Publication date
CN115130119B (zh) 2024-04-12

Similar Documents

Publication Publication Date Title
CN110324362B (zh) 一种基于交互行为的区块链用户可信度评价方法
CN115130119A (zh) 一种基于本地差分隐私的效用优化集合数据保护方法
Sanil et al. Privacy preserving regression modelling via distributed computation
Jiang et al. Context-aware data aggregation with localized information privacy
KR20150115772A (ko) 미스매칭된 프라이어에 대한 간섭 공격에 대한 프라이버시
CN109284988A (zh) 数据分析系统及方法
CN115906164A (zh) 基于本地差分隐私的效用优化键值数据保护方法、装置
Yao et al. Online truth discovery on time series data
Le Ny Differentially private nonlinear observer design using contraction analysis
CN113297621A (zh) 一种基于个性化本地差分隐私的数据收集方法
WO2015026384A1 (en) Method and apparatus for utility-aware privacy preserving mapping against inference attacks
CN113542236A (zh) 一种基于核密度估计和指数平滑算法的异常用户检测方法
CN111259260B (zh) 一种基于排序分类的个性化推荐中的隐私保护方法
Wang et al. YATA: Yet Another Proposal for Traffic Analysis and Anomaly Detection.
Zheng et al. A matrix factorization recommendation system-based local differential privacy for protecting users’ sensitive data
Halimi et al. Privacy-preserving and efficient verification of the outcome in genome-wide association studies
Li et al. Incentive-based federated learning for digital-twin-driven industrial mobile crowdsensing
Trottini A decision-theoretic approach to data disclosure problems
Nazemian et al. An improved model of trust-aware recommender systems using distrust metric
Cui et al. Web service selection based on credible user recommended and QoS
Chen et al. Research of collaborative filtering recommendation algorithm based on trust propagation model
CN114861081A (zh) 一种基于时效近邻可信选取的协同过滤推荐方法及系统
Guesmi et al. FFED: a novel strategy based on fast entropy to detect attacks against trust computing in cloud
CN110990869B (zh) 一种应用于隐私保护的电力大数据脱敏方法
Wang et al. A novel task recommendation model for mobile crowdsourcing systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant