CN113297621A - 一种基于个性化本地差分隐私的数据收集方法 - Google Patents

一种基于个性化本地差分隐私的数据收集方法 Download PDF

Info

Publication number
CN113297621A
CN113297621A CN202110650478.9A CN202110650478A CN113297621A CN 113297621 A CN113297621 A CN 113297621A CN 202110650478 A CN202110650478 A CN 202110650478A CN 113297621 A CN113297621 A CN 113297621A
Authority
CN
China
Prior art keywords
privacy
data
server
vector
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110650478.9A
Other languages
English (en)
Inventor
朱友文
贺星宇
宋仕宏
王钺程
李明洋
张帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202110650478.9A priority Critical patent/CN113297621A/zh
Publication of CN113297621A publication Critical patent/CN113297621A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Storage Device Security (AREA)

Abstract

本发明属于信息安全领域,具体涉及一种基于个性化本地差分隐私的数据收集方法。该方法包括:服务器将原始数据集合划分,设置若干个隐私级别,划分结果与隐私级别公开。用户选择一个隐私级别,在本地对自己的原始数据进行编码扰动,并将扰动后数据发送至服务器。服务器收集数据并在各个隐私级别下进行统计分析,估算出原始数据的频率分布结果,并将每个隐私级别下的结果进行加权组合,得到最终的频率分布结果。本发明可以抵抗具有任意背景知识的攻击者和防止来自不可信第三方的隐私攻击;本发明从用户层面实现了个性化并考虑了不同数据的敏感性差异,使用户可以自行把控隐私保护力度,数据不会出现过度保护,服务器得到的估计结果更为准确。

Description

一种基于个性化本地差分隐私的数据收集方法
技术领域
本发明属于信息安全领域,具体涉及一种基于个性化本地差分隐私的数据收集方法。
背景技术
随着信息技术的迅速发展,越来越多的个人信息被收集,并出于各种目的被分析研究。例如人们的位置信息会被收集,来进行路线规划或者景点推荐;人们的医疗记录会被收集,来进行健康风险的评估或者疾病的预期诊断。这些行为固然为用户带来了很大的便利,但是也会引发隐私泄漏的问题,比如泄漏个人的家庭住址或者健康信息。在这种环境下,如何保护个人信息,已成为社会普遍关注的问题。
差分隐私是由Dwork[DWORK,C.Differential privacy.In ICALP(2006),pp.1-12.]提出的一种隐私保护模型,与之前的大部分隐私保护模型不同,该模型由数学语言严格定义,其最大的特点就是可以对隐私保护程度进行量化,使人们可以清晰地知晓自己的隐私受到了何等力度的保护。而且该模型不关心攻击者具有多少背景知识,具有十分卓越的隐私保护功能。在差分隐私模型中,用户的原始数据在未加保护的情况下,直接发送给第三方服务器。服务器会对用户的原始数据进行扰动,以提供隐私保护。这要求我们在使用这一模型的时候,需要一个可信的第三方。但在实际应用中,很难找到一个完全可信的第三方,因此研究者们提出了本地差分隐私这一模型。
本地差分隐私是差分隐私的一个变种,与之前的模型不同,在本地差分隐私中用户的原始数据会在用户本地进行扰动,发送给服务器的数据并不是原始数据,而是用户在本地扰动后的数据。用户的原始数据只会被用户个人知晓,因此不像传统差分隐私那样需要一个可信的第三方,大大提高了模型的实用性。本地差分隐私的形式化定义如下:一个扰动算法PE:X→Y,其中X为定义域,Y为值域。该扰动算法满足∈-本地差分隐私,当且仅当,对于任意两个用户的数据x,x′∈X,以及任意可能的输出y∈Y满足不等式Pr[PE(x)=y]≤Pr[PE(x′)=y]*e (Pr[PE(x)=y]表示该扰动算法输入x时,输出y的概率)。上述不等式中的∈被称为隐私预算,通常∈≥0。隐私预算这一参数可以用来衡量两个不同的原始数据映射结果的相似性,因此可以衡量该模型中隐私保护的力度。通常来说,隐私预算越大,隐私保护的力度就越小,但最后数据的估计准确度就越高。在应用本地差分隐私模型时,需要综合考虑用户的隐私保护需求和数据使用者的准确度需求,设置一个合适的隐私预算。
但现有的大部分本地差分隐私机制在使用时存在两个问题:其一是没有考虑到用户的个性化隐私保护需求。在现有的本地差分隐私机制中所有的用户都使用同一个隐私预算对自己的原始数据进行扰动,这代表着每个用户不能自由选择隐私预算,只能以相同的力度保护自己的隐私,使得部分用户的隐私保护需求无法得到满足。例如在专利【CN202010543185.6】中,系统会设置一个全局的隐私预算∈,用户在扰动过程中只能使用这个隐私预算,不能自行选择,这使得某些用户无法满足自己的个性化隐私保护需求。其二是没有考虑到不同数据类别的敏感性差异。在大部分差分隐私模型中,均默认不同类别的数据同等敏感,对不同的原始数据均采用相同的扰动方式进行扰动。但在实际应用中不同类别的原始数据需要的隐私保护力度并不相同。例如当我们在统计作弊学生人数时,“做过弊”这一答案毫无疑问比“没做过弊”更为敏感,需要更大的隐私保护力度;当我们在统计人们所患疾病时,“艾滋”、“癌症”这些疾病毫无疑问比“感冒”更为敏感,同样需要更大的隐私保护力度。但大部分现有的本地差分隐私机制并没有注意到不同数据之间的敏感性差异。在那些机制中,所有的数据都默认同等重要,以相同的方式执行扰动过程,例如专利【CN202010033257.2】中,不同类别数据的扰动方式是一样的,均使用了相同的随机响应技术添加噪声进行扰动。在该专利中虽然用户可以自行选择隐私预算,但并未在系统层面为不同类别的数据设置不同的扰动方式。这种做法忽略了不同类别数据之间敏感性的差异,将它们以同一扰动方式进行扰动,这会导致低敏感性数据受到了过度保护,使得最终的统计结果准确度降低;或者高敏感性数据的隐私保护需求没有满足,增大了隐私泄漏风险。
发明内容
本发明针对现有的本地差分隐私方案对于个性化考虑不足这一问题,提出一种基于个性化本地差分隐私的数据收集方法,主要包括以下步骤:
S1:服务器将原始数据集合划分为敏感数据集合XS和非敏感数据集合XN两部分,把划分结果公开;服务器设置h个隐私级别,每个级别对应不同的隐私预算,当隐私级别为t时,该级别对应的隐私预算用∈t表示(t=1,2,3…,h),所有隐私级别和隐私预算一并公开;
S2:用户根据自身情况与习惯特征,任意选择一个隐私级别;用户在本地将自己的原始数据编码并扰动,随后将选择的隐私级别和扰动数据发送给服务器;
S3:服务器将用户发送的扰动数据进行聚合,数据被聚合划分至h个集合中;该h个集合与S1中设置的h个隐私级别一一对应;
S4:服务器分别对每个隐私级别对应集合中的扰动数据进行统计分析,估算出所有原始数据的频率分布结果;
S5:服务器对所有隐私级别下的频率分布结果进行加权组合,得到最终的频率分布结果。
在步骤S2中,所述用户在本地将自己的原始数据编码并扰动,包括:
S21:用户将自己的原始数据在本地编码成长度为|XS|+|XN|的向量,该向量每一位对应着一种原始数据,前|XS|位对应着|XS|种敏感数据,后|XN|位对应着 |XN|种非敏感数据;该向量用户原始数据对应位为1,其他位均为0;
S22:对向量的每一位分别进行扰动,若向量该位为1则有概率扰动成0,若向量该位为0,则有概率扰动成1;对于向量的前|XS|位,按照如下概率进行扰动:
Figure BSA0000244521760000031
对于向量的后|XN|位,按照如下概率进行扰动:
Figure BSA0000244521760000041
其中v表示扰动前向量,vi表示扰动前向量v的第i位;u表示扰动后向量,ui表示扰动后向量u的第i位;Pr(ui|vi)表示vi扰动成ui的概率;t表示用户所选的隐私级别,∈t表示用户所选的隐私级别对应的隐私预算。
在步骤S3中,服务器按照隐私级别对用户发送的扰动数据进行聚合,同一隐私级别的扰动数据被聚合至一个集合中,聚合完成后隐私级别数量与集合数量相等。
在步骤S4中,所述服务器分别对每个隐私级别对应集合中的扰动数据进行统计分析,估算出原始数据的频率分布结果,包括:
S41:服务器选择一个未得到频率分布结果的隐私级别t;
S42:服务器选择一个未在隐私级别t下得到向量数量的原始数据xi,对隐私级别t对应集合中的扰动后向量进行统计,得到xi对应位上为1的向量数量 Countt(xi);
S43:迭代执行S42,直至在隐私级别t下所有的原始数据均得到对应的向量数量;
S44:服务器对所有原始数据的频率进行估计,若原始数据xi∈XS,则计算
Figure BSA0000244521760000042
若原始数据xi∈XN,则计算
Figure BSA0000244521760000043
其中
Figure BSA0000244521760000044
表示隐私级别t下估计出的原始数据xi的频率,nt表示选择隐私级别t的用户数量;
S45:迭代执行S41-S44,直至所有的隐私级别都得到原始数据的频率分布结果。
在步骤S5中,所述服务器对所有隐私级别下的频率分布结果进行加权组合,包括:
S51:服务器对每个隐私级别生成一个权重,计算方式计算如下:
Figure 1
其中ωt(t=1,2,3…,h)代表隐私级别t的权重,
Figure BSA0000244521760000054
表示所有非敏感数据的频率总和,可由S44中求出的估计频率对
Figure BSA0000244521760000055
进行近似替代;
S52:服务器选择一个未得到最终估计频率的原始数据xi,将S4中计算出来的h个估计频率
Figure BSA0000244521760000056
以S51中计算的权重ωt加权组合(t=1,2,3…,h),得到原始数据xi的最终估计频率,具体计算方式如下:
Figure BSA0000244521760000052
其中
Figure BSA0000244521760000053
即为原始数据xi的最终估计频率;
S53:迭代执行S52,直至所有的原始数据均得到最终估计频率。
本发明的目的在于解决传统的本地差分隐私方案中对个性化考虑不足这一问题,本发明的个性化存在于两个层面,其一是用户可以自由选择隐私预算,以此来控制用户自己的隐私保护力度,在用户层面实现了个性化。其二是数据被划分为敏感数据和非敏感数据两部分,有着不同的扰动方法,从系统层面考虑了不同数据类别的敏感性差异,在数据层面实现了个性化。
本发明的突出的实质性特点和显著性进步主要体现在以下几点:
(1)本发明采用了基于本地差分隐私的方法保护用户的数据,可以抵抗具有任意背景知识的攻击者和防止来自不可信第三方数据收集者的隐私攻击。
(2)本发明在隐私保护的前提下,从用户层面实施了个性化,使得用户可以根据自己的实际需求来选择不同的隐私预算,以达到不同的隐私保护力度。
(3)本发明从系统层面考虑了不同数据类别的敏感性差异,将数据分为敏感部分和非敏感部分,以不同的扰动方法分别对其扰动,这使得数据不会像之前那样受到过度保护,最后可以得到准确度更高的统计结果。
(4)本发明设计了多个隐私级别下频率分布结果的加权组合方法,服务器为每个隐私级别计算相应的权重,并将对应的频率分布结果按权重相加,可减少估计过程中的误差,使得最终的频率分布结果有着更好的数据效用。
本发明的目的、优点和特点,将通过下面优选实施例的非限制性说明进行解释。这些实施例仅是应用本发明技术方案的典型范例,凡采取等同替换或者等效变换而形成的技术方案,均落在本发明要求保护的范围之内。
附图说明
下面结合附图及实施例对本发明作进一步描述:
图1为本发明实例的用户流程示意图
图2为本发明实例的服务器流程示意图
图3为本发明实例的总体流程示意图
具体实施方式
以下结合具体实施例对上述方案做进一步说明。应理解,这些实施例是用于说明本发明而不限于限制本发明的范围。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
结合图1,本实施例的个性化本地差分隐私的数据收集方法总体实施步骤如下:
S1:服务器将原始数据集合划分为敏感数据集合XS和非敏感数据集合XN两部分,把划分结果公开;服务器设置h个隐私级别,每个级别对应不同的隐私预算,当隐私级别为t时,该级别对应的隐私预算用∈t表示(t=1,2,3…,h),所有隐私级别和隐私预算一并公开;
S2:用户根据自身情况与习惯特征,任意选择一个隐私级别;用户在本地将自己的原始数据编码并扰动,随后将选择的隐私级别和扰动数据发送给服务器;
S3:服务器将用户发送的扰动数据进行聚合,数据被聚合划分至h个集合中;该h个集合与S1中设置的h个隐私级别一一对应;
S4:服务器分别对每个隐私级别对应集合中的扰动数据进行统计分析,估算出所有原始数据的频率分布结果;
S5:服务器对所有隐私级别下的频率分布结果进行加权组合,得到最终的频率分布结果。
在步骤S2中,所述用户在本地将自己的原始数据编码并扰动,包括:
S21:用户将自己的原始数据在本地编码成长度为|XS|+|XN|的向量,该向量每一位对应着一种原始数据,前|XS|位对应着|XS|种敏感数据,后|XN|位对应着|XN|种非敏感数据;该向量用户原始数据对应位为1,其他位均为0;
S22:对向量的每一位分别进行扰动,若向量该位为1则有概率扰动成0,若向量该位为0,则有概率扰动成1;对于向量的前|XS|位,按照如下概率进行扰动:
Figure BSA0000244521760000071
对于向量的后|XN|位,按照如下概率进行扰动:
Figure BSA0000244521760000072
其中v表示扰动前向量,vi表示扰动前向量v的第i位;u表示扰动后向量,ui表示扰动后向量u的第i位;Pr(ui|vi)表示vi扰动成ui的概率;t表示用户所选的隐私级别,∈t表示用户所选的隐私级别对应的隐私预算。
在步骤S3中,服务器按照隐私级别对用户发送的扰动数据进行聚合,同一隐私级别的扰动数据被聚合至一个集合中,聚合完成后隐私级别数量与集合数量相等。
在步骤S4中,所述服务器分别对每个隐私级别对应集合中的扰动数据进行统计分析,估算出原始数据的频率分布结果,包括:
S41:服务器选择一个未得到频率分布结果的隐私级别t;
S42:服务器选择一个未在隐私级别t下得到向量数量的原始数据xi,对隐私级别t对应集合中的扰动后向量进行统计,得到xi对应位上为1的向量数量 Countt(xi);
S43:迭代执行S42,直至在隐私级别t下所有的原始数据均得到对应的向量数量;
S44:服务器对所有原始数据的频率进行估计,若原始数据xi∈XS,则计算
Figure BSA0000244521760000081
若原始数据xi∈XN,则计算
Figure BSA0000244521760000082
其中
Figure BSA0000244521760000083
表示隐私级别t下估计出的原始数据xi的频率,nt表示选择隐私级别t的用户数量;
S45:迭代执行S41-S44,直至所有的隐私级别都得到原始数据的频率分布结果。
在步骤S5中,所述服务器对所有隐私级别下的频率分布结果进行加权组合,包括:
S51:服务器对每个隐私级别生成一个权重,计算方式计算如下:
Figure BSA0000244521760000084
其中ωt(t=1,2,3…,h)代表隐私级别t的权重,
Figure BSA0000244521760000087
表示所有非敏感数据的频率总和,可由S44中求出的估计频率对
Figure BSA0000244521760000088
进行近似替代;
S52:服务器选择一个未得到最终估计频率的原始数据xi,将S4中计算出来的h个估计频率
Figure BSA0000244521760000089
以S51中计算的权重ωt加权组合(t=1,2,3…,h),得到原始数据xi的最终估计频率,具体计算方式如下:
Figure BSA0000244521760000085
其中
Figure BSA0000244521760000086
即为原始数据xi的最终估计频率;
S53:迭代执行S52,直至所有的原始数据均得到最终估计频率。
结合图2,个性化本地差分隐私的数据收集方法中用户端具体流程步骤如下:
步骤一:获取服务器公布的数据划分结果和隐私级别。敏感数据集合记为XS,敏感数据维度为|XS|;非敏感数据集合记为XN,非敏感数据维度为|XN|。用户根据自身情况与主观偏好自行选取一个隐私级别,记为t,对应的隐私预算为∈t
步骤二:用户将自己的原始数据在本地编码为长度为|XS|+|XN|的向量,该向量每一位对应一个原始数据,前|XS|位对应|XS|个敏感数据,后|XN|位对应|XN| 个非敏感数据。该向量只有用户数据对应位为1,其他位均为0。
步骤三:用户对向量的每一位分别进行扰动,若向量该位为1则有概率扰动成0,若向量该位为0,则有概率扰动成1;对于向量的前|XS|位,按照如下概率进行扰动:
Figure BSA0000244521760000091
对于向量的后|XN|位,按照如下概率进行扰动:
Figure BSA0000244521760000092
其中v表示扰动前向量,vi表示扰动前向量u的第i位;u表示扰动后向量,ui表示扰动后向量u的第i位;Pr(ui|vi)表示vi扰动成ui的概率;t表示用户所选的隐私级别,∈t表示用户所选的隐私级别对应的隐私预算。
步骤四:将扰动后得到的向量u和用户所选的隐私级别t发送给服务器。
结合图3,个性化本地差分隐私的数据收集方法中服务器端具体流程步骤如下:
步骤一:服务器将原始数据划分为敏感数据集合XS和非敏感数据集合XN两部分,并把划分结果公开。服务器设置h个隐私级别,每个级别具有不同的隐私预算,例如当隐私级别为t时,隐私预算用∈t表示(t=1,2,3,...,h),这些隐私级别和隐私预算公开。
步骤二:服务器将用户发送的扰动后数据以隐私级别进行聚合,同一隐私级别的数据放到一个集合中,有多少个隐私级别就有多少个集合。在步骤一中,服务器设置了h个隐私级别,所以会有h个集合。
步骤三:服务器选择一个未得到频率分布结果的隐私级别t;
步骤四:服务器选择一个未在隐私级别t下得到向量数量的原始数据xi,对隐私级别t对应集合中的扰动后向量进行统计,得到xi对应位上为1的向量数量 Countt(xi)。迭代执行步骤四,直至在隐私级别t下所有的原始数据均得到对应的向量数量。
步骤五:服务器对所有原始数据的频率进行估计,若原始数据xi∈XS,则计算
Figure 2
若原始数据xi∈XN,则计算
Figure BSA0000244521760000102
其中
Figure BSA0000244521760000103
表示隐私级别t下估计出的原始数据xi的频率,nt表示选择隐私级别t的用户数量。迭代执行步骤三到步骤四,直至所有的隐私级别都得到原始数据的频率分布结果。
步骤五:若共有h个隐私级别,则每个级别下都有一个原始数据的频率估计结果,服务器对每个隐私级别生成一个权重,计算方式计算如下:
Figure BSA0000244521760000104
其中ωt(t=1,2,3…,h)代表隐私级别t的权重,
Figure BSA0000244521760000105
表示所有非敏感数据的频率总和,可由S44中求出的估计频率对
Figure BSA0000244521760000106
进行近似替代;
服务器选择一个未得到最终估计频率的原始数据xi,将步骤四中计算出来的 h个估计频率
Figure BSA0000244521760000107
以S51中计算的权重ωt加权组合(t=1,2,3…,h),得到原始数据xi的最终估计频率,具体计算方式如下:
Figure BSA0000244521760000108
其中
Figure BSA0000244521760000109
即为原始数据xi的最终估计频率。迭代执行步骤五,直至所有的原始数据均得到最终估计频率。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
下面是基于个性化本地差分隐私的数据收集方法的实验结果。实验中采用的数据集是Bank Marketing Data Set,这是一间葡萄牙银行的营销数据集,里面记录了银行客户的信息,我们使用其中‘工作(job)’这栏信息。该数据集中共有 41188条数据,数据类别共有12个。在实验中划分了5个隐私级别,隐私预算分别为1.0,2.0,3.0,4.0,5.0,对应隐私级别分别为1,2,3,4,5。在实验中每个用户随机选择一个隐私级别,在本地扰动自己的数据,并将数据与隐私级别发送给服务器。服务器在每个级别统计出一个原始数据的频率分布结果,最后将这些结果进行加权组合,得到最终的频率分布结果,也就是银行客户中每个职业所占比例。其中误差的计算方式为:误差=|真实频率-估计频率|/真实频率×100%。实验结果如表1所示。可以看出随着隐私级别的扩大,误差的数值在不断减小,而加权组合结果的误差是最小的,这也与我们上述的发明实质性特点和显著性进步一致,从实验角度验证了本发明的有效性。
表1 Bank Marketing Data Set上的实验结果
Figure BSA0000244521760000111

Claims (5)

1.一种基于个性化本地差分隐私的数据收集方法,其特征在于,包括以下步骤:
S1:服务器将原始数据集合划分为敏感数据集合XS和非敏感数据集合XN两部分,把划分结果公开;服务器设置h个隐私级别,每个级别对应不同的隐私预算,当隐私级别为t时,该级别对应的隐私预算用εt表示(t=1,2,3…,h),所有隐私级别和隐私预算一并公开;
S2:用户根据自身情况与习惯特征,任意选择一个隐私级别;用户在本地将自己的原始数据编码并扰动,随后将选择的隐私级别和扰动数据发送给服务器;
S3:服务器将用户发送的扰动数据进行聚合,数据被聚合划分至h个集合中;该h个集合与S1中设置的h个隐私级别一一对应;
S4:服务器分别对每个隐私级别对应集合中的扰动数据进行统计分析,估算出所有原始数据的频率分布结果;
S5:服务器对所有隐私级别下的频率分布结果进行加权组合,得到最终的频率分布结果。
2.根据权利要求1所述的基于个性化本地差分隐私的数据收集方法,其特征在于,在步骤S2中,所述用户在本地将自己的原始数据编码并扰动,包括:
S21:用户将自己的原始数据在本地编码成长度为|XS|+|XN|的向量,该向量每一位对应着一种原始数据,前|XS|位对应着|XS|种敏感数据,后|XN|位对应着|XN|种非敏感数据;该向量用户原始数据对应位为1,其他位均为0;
S22:对向量的每一位分别进行扰动,若向量该位为1则有概率扰动成0,若向量该位为0,则有概率扰动成1;对于向量的前|XS|位,按照如下概率进行扰动:
Figure FSA0000244521750000011
对于向量的后|XN|位,按照如下概率进行扰动:
Figure FSA0000244521750000012
其中v表示扰动前向量,vi表示扰动前向量v的第i位;u表示扰动后向量,ui表示扰动后向量u的第i位;Pr(ui|vi)表示vi扰动成ui的概率;t表示用户所选的隐私级别,εt表示用户所选的隐私级别对应的隐私预算。
3.根据权利要求1所述的基于个性化本地差分隐私的数据收集方法,其特征在于,在步骤S3中,服务器按照隐私级别对用户发送的扰动数据进行聚合,同一隐私级别的扰动数据被聚合至一个集合中,聚合完成后隐私级别数量与集合数量相等。
4.根据权利要求1所述的基于个性化本地差分隐私的数据收集方法,其特征在于,在步骤S4中,所述服务器分别对每个隐私级别对应集合中的扰动数据进行统计分析,估算出原始数据的频率分布结果,包括:
S41:服务器选择一个未得到频率分布结果的隐私级别t;
S42:服务器选择一个未在隐私级别t下得到向量数量的原始数据xi,对隐私级别t对应集合中的扰动后向量进行统计,得到xi对应位上为1的向量数量Countt(xi);
S43:迭代执行S42,直至在隐私级别t下所有的原始数据均得到对应的向量数量;
S44:服务器对所有原始数据的频率进行估计,若原始数据xi∈XS,则计算
Figure FSA0000244521750000021
Figure FSA0000244521750000022
若原始数据xi∈XN,则计算
Figure FSA0000244521750000023
其中
Figure FSA0000244521750000024
表示隐私级别t下估计出的原始数据xi的频率,nt表示选择隐私级别t的用户数量;
S45:迭代执行S41-S44,直至所有的隐私级别都得到原始数据的频率分布结果。
5.根据权利要求1所述的基于个性化本地差分隐私的数据收集方法,其特征在于,在步骤S5中,所述服务器对所有隐私级别下的频率分布结果进行加权组合,包括:
S51:服务器对每个隐私级别生成一个权重,计算方式计算如下:
Figure FSA0000244521750000025
其中ωt(t=1,2,3…,h)代表隐私级别t的权重,
Figure FSA0000244521750000026
表示所有非敏感数据的频率总和,可由S44中求出的估计频率对
Figure FSA0000244521750000027
进行近似替代;
S52:服务器选择一个未得到最终估计频率的原始数据xi,将S4中计算出来的h个估计频率
Figure FSA0000244521750000028
以S51中计算的权重ωt加权组合(t=1,2,3…,h),得到原始数据xi的最终估计频率,具体计算方式如下:
Figure FSA0000244521750000031
其中
Figure FSA0000244521750000032
即为原始数据xi的最终估计频率;
S53:迭代执行S52,直至所有的原始数据均得到最终估计频率。
CN202110650478.9A 2021-06-10 2021-06-10 一种基于个性化本地差分隐私的数据收集方法 Pending CN113297621A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110650478.9A CN113297621A (zh) 2021-06-10 2021-06-10 一种基于个性化本地差分隐私的数据收集方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110650478.9A CN113297621A (zh) 2021-06-10 2021-06-10 一种基于个性化本地差分隐私的数据收集方法

Publications (1)

Publication Number Publication Date
CN113297621A true CN113297621A (zh) 2021-08-24

Family

ID=77328136

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110650478.9A Pending CN113297621A (zh) 2021-06-10 2021-06-10 一种基于个性化本地差分隐私的数据收集方法

Country Status (1)

Country Link
CN (1) CN113297621A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113722558A (zh) * 2021-08-27 2021-11-30 浙江大学 基于自适应数据域划分的保隐私高维数据范围查询方法
CN114462032A (zh) * 2022-04-13 2022-05-10 北京理工大学 一种本地化差分隐私下键值对数据收集受投毒攻击的检测方法
CN115130119A (zh) * 2022-06-01 2022-09-30 南京航空航天大学 一种基于本地差分隐私的效用优化集合数据保护方法
CN115455483A (zh) * 2022-09-21 2022-12-09 广州大学 一种基于本地差分隐私的大数据频数估计方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902506A (zh) * 2019-01-08 2019-06-18 中国科学院软件研究所 一种多隐私预算的本地差分隐私数据分享方法和系统
CN110020546A (zh) * 2019-01-07 2019-07-16 南京邮电大学 一种隐私数据分级保护方法
CN111400755A (zh) * 2020-03-13 2020-07-10 中国科学院信息工程研究所 一种基于指数机制的个性化差分隐私保护方法及系统
CN111669366A (zh) * 2020-04-30 2020-09-15 南京大学 一种本地化差分隐私数据交换方法及存储介质
CN111768268A (zh) * 2020-06-15 2020-10-13 北京航空航天大学 一种基于本地化差分隐私的推荐系统
CN112380567A (zh) * 2020-11-27 2021-02-19 南京航空航天大学 一种基于本地化差分隐私带有置信度的调查方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110020546A (zh) * 2019-01-07 2019-07-16 南京邮电大学 一种隐私数据分级保护方法
CN109902506A (zh) * 2019-01-08 2019-06-18 中国科学院软件研究所 一种多隐私预算的本地差分隐私数据分享方法和系统
CN111400755A (zh) * 2020-03-13 2020-07-10 中国科学院信息工程研究所 一种基于指数机制的个性化差分隐私保护方法及系统
CN111669366A (zh) * 2020-04-30 2020-09-15 南京大学 一种本地化差分隐私数据交换方法及存储介质
CN111768268A (zh) * 2020-06-15 2020-10-13 北京航空航天大学 一种基于本地化差分隐私的推荐系统
CN112380567A (zh) * 2020-11-27 2021-02-19 南京航空航天大学 一种基于本地化差分隐私带有置信度的调查方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113722558A (zh) * 2021-08-27 2021-11-30 浙江大学 基于自适应数据域划分的保隐私高维数据范围查询方法
CN114462032A (zh) * 2022-04-13 2022-05-10 北京理工大学 一种本地化差分隐私下键值对数据收集受投毒攻击的检测方法
CN115130119A (zh) * 2022-06-01 2022-09-30 南京航空航天大学 一种基于本地差分隐私的效用优化集合数据保护方法
CN115130119B (zh) * 2022-06-01 2024-04-12 南京航空航天大学 一种基于本地差分隐私的效用优化集合数据保护方法
CN115455483A (zh) * 2022-09-21 2022-12-09 广州大学 一种基于本地差分隐私的大数据频数估计方法
CN115455483B (zh) * 2022-09-21 2023-12-26 广州大学 一种基于本地差分隐私的大数据频数估计方法

Similar Documents

Publication Publication Date Title
CN113297621A (zh) 一种基于个性化本地差分隐私的数据收集方法
Aghasian et al. Scoring users’ privacy disclosure across multiple online social networks
Rinott et al. Confidentiality and differential privacy in the dissemination of frequency tables
Wang et al. Comparative study of monthly inflow prediction methods for the Three Gorges Reservoir
CN103237023A (zh) 一种动态信任模型构建系统
CN103412918A (zh) 一种基于服务质量和声誉的服务信任度评估方法
WO2009127771A1 (en) Privacy management of data
CN109829721B (zh) 基于异质网络表征学习的线上交易多主体行为建模方法
CN110532429B (zh) 一种基于聚类和关联规则的线上用户群体分类方法及装置
CN109636467A (zh) 一种品牌的互联网数字资产的综合评估方法及系统
CN112885468A (zh) 一种基于随机响应差分隐私技术的教师共识聚集学习方法
CN112632612B (zh) 一种医疗数据发布匿名化方法
JP2016535898A (ja) 結託および合成を考慮した効用対応プライバシー保護写像のための方法および装置
Le Ny Differentially private nonlinear observer design using contraction analysis
CN114861224B (zh) 基于风险和ucon访问控制模型的医疗数据系统
CN116186757A (zh) 一种效用增强的条件特征选择差分隐私数据发布方法
CN115130119B (zh) 一种基于本地差分隐私的效用优化集合数据保护方法
CN108696397B (zh) 一种基于ahp和大数据的电网信息安全评估方法及装置
Guo et al. Groundwater depth forecasting using configurational entropy spectral analyses with the optimal input
Wen et al. Privacy preserving trajectory data publishing with personalized differential privacy
Meraner et al. Weighting procedure of the Austrian microcensus using administrative data
Zhang et al. DDoS attack security situation assessment model using fusion feature based on fuzzy C-means clustering algorithm
CN116308748A (zh) 一种基于知识图谱的用户欺诈行为判断系统
CN111159402B (zh) 一种基于主题意见分析和意见领袖的网络用户影响关系的挖掘方法
CN115098881A (zh) 一种基于敏感等级划分的数据扰动方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination