CN115130119B

CN115130119B - 一种基于本地差分隐私的效用优化集合数据保护方法

Info

Publication number: CN115130119B
Application number: CN202210618868.2A
Authority: CN
Inventors: 朱友文; 曹依然
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2022-06-01
Filing date: 2022-06-01
Publication date: 2024-04-12
Anticipated expiration: 2042-06-01
Also published as: CN115130119A

Abstract

本发明公开了一种基于本地差分隐私的效用优化集合数据保护方法，属于信息安全领域。该方法包括服务器将原始数据域划分为敏感数据域和非敏感数据域，并将划分结果，隐私预算和数据条数公开；用户对自己的集合数据进行采样或填充，然后根据数据所属类别，在本地对其进行扰动，并将结果发送给服务器。服务器收集用户的扰动后数据，分析计算出原始数据的频率估计结果。本发明可以抵抗具有任意背景知识的攻击者和防止来自不可信第三方服务器的隐私攻击；本发明可以在保证敏感数据保护力度不降低的前提下，提高整体数据效用，进而提高服务器统计结果的准确度。

Description

一种基于本地差分隐私的效用优化集合数据保护方法

技术领域

本发明属于信息安全领域，具体涉及一种基于本地差分隐私的效用优化集合数据保护方法。

背景技术

随着经济科技的迅速发展，智能终端等设备也愈发普及，随之产生的用户数据被相关公司收集、研究。集合数据就是现实生活中一种很常见的数据形式，有着广泛的应用场景。通过分析集合数据，可以挖掘出它们中的隐藏信息，进而为用户提供更好的服务。如收集用户的视频浏览记录，分析用户偏好并完善推荐系统，收集用户的医疗记录，为用户提供疾病的预期诊断。但是同时，这些数据中也往往包含着大量的隐私信息，如果直接将其提供给其他人使用，会对用户的人身、财产安全造成极大的威胁，这也会使得用户共享数据的意愿降低。因此，如何在保护用户隐私的前提下，对数据进行收集、分析、发布，是一个亟待解决的问题。

差分隐私是由文献[Dwork C.“Differential privacy:A survey of results”,International conference on theory and applications of models ofcomputation.Springer,Berlin,Heidelberg,2008:1-19.]提出的一种隐私保护模型，与其他隐私保护技术不同的是，差分隐私有着严格的数学形式化安全性证明支撑和高效低开销的特点，并且可以对隐私保护程度进行量化，同时不需要考虑攻击者拥有多少背景知识。在传统差分隐私模型下，用户需要将自己的真实数据发送给服务器，由服务器来完成对数据的扰动和发布，这就意味着必须保证服务器是绝对可信的。但是在实际应用中，很难去找到这样一个完全可信的第三方，因此后人提出了本地差分隐私。

本地差分隐私摒弃了对可信第三方的需求，同时继承了差分隐私的优点，是差分隐私在本地化场景下的应用。通过将数据扰动的步骤从服务器端迁移到用户端，并且只向服务器发送扰动后的数据，使得在满足数据统计分析需求的前提下，可以抵抗来自不可信第三方的攻击，大大提高了模型的实用性。本地差分隐私的形式化定义如下：一个随机扰动算法M:X→Y，其中X为定义域，Y为值域。当且仅当，对于任意两个用户的数据x,x′∈X，以及任意可能的输出y∈Y满足不等式时，该扰动算法满足ε-本地差分隐私。该不等式中的ε被称为隐私预算，用于衡量数据域范围内任意两条数据不可区分性的程度，也就是对用户数据的保护力度。当隐私预算ε越小时，不可区分性越高，隐私保护的力度越大，但相应的，最后数据的估计准确度也会越低；隐私预算ε越大，不可区分性越低，隐私保护的力度越小，估计准确度则越高。因此在实际应用时，需要对隐私保护力度和数据效用好坏做一个权衡。

现有本地差分隐私下的集合数据频率估计机制对所有数据采用相同的扰动方式进行扰动，但是在实际应用中，不同数据的敏感度是不一样的，例如在收集用户购物记录时，“药品”类要比“日用品”类更为敏感，收集用户观看电影的记录时，“恐怖”、“惊悚”这些类型要比“喜剧”、“爱情”更为敏感。如果直接使用同样方式扰动不同的数据，会过度保护低敏感性数据，进而导致统计结果准确度降低。

发明内容

本发明针对现有本地差分隐私下的集合数据保护保护方案对敏感性差异考虑不足这一问题，提供一种基于本地差分隐私的效用优化集合数据保护方法。

本发明所述的一种基于本地差分隐私的效用优化集合数据保护方法，包括以下步骤：

S1、服务器将原始数据域X划分为敏感数据域X_S和非敏感数据域X_N，根据实际情况确定用户数据指定条数m，虚假数据域X_T和所使用的隐私预算ε，并把X_S，X_N，X_T，m和ε公开给用户；

S2、用户对自己的数据进行预处理，若数据条数大于m，则从中随机抽取m条，若数据条数小于m，则使用虚假数据补齐到m条，虚假数据由用户自己从X_T选择，虚假数据也属于非敏感数据；

s′表示用户预处理后的数据，即s′＝{x₁,x₂,…,x_m}，X′表示全体数据域，即X′＝X∩X_T；

S3、用户根据s′中数据所属类别进行扰动，并把扰动后的数据和扰动中使用的哈希函数发送给服务器；

S4、服务器根据用户发送的扰动后数据和扰动中使用的哈希函数进行统计分析，估算出原始数据的频率分布结果。

进一步的，在步骤(S 3)中，用户端原始数据的扰动包括如下过程：

S31、由用户自己选择哈希函数h:X→[0.0,1.0)，即哈希函数h的输入域为全体数据域X′，输出域为[0.0,1.0)，然后对s′中每一条数据进行哈希，得到哈希后的数据v＝{h(x₁),h(x₂),…,h(x_m)}＝{v₁,v₂,…,v_m}；

S32、计算覆盖长度正则化因子Ω＝mpe^ε+1-mp，覆盖区域C_v＝{t|t∈[v_i,v_i+p)或[0,v_i+p-1),i∈[1,m]}和覆盖区域的总长度l，然后按照如下公式所示概率密度得到y₀：

S33、令针对s′中每一条数据x_i，若x_i∈s′_N，/>且/> 则将x_i加入集合y₁中；

S34、将h，y₀和y₁发送给服务器。

在步骤(S4)中，服务器估算频率分布结果包括如下步骤：

S41、服务器收集到全部n个参与者发送的扰动结果，将结果分为两组，第一组是所有用户发来的y₀和h，第二组是所有用户发来的y₁；

S42、计算覆盖长度正则化因子Ω＝mpe^ε+1-mp，正确覆盖概率错误覆盖概率P_f＝p；

S43、针对X_S中每条数据x，令F_x＝0，遍历所有用户发来的y₀和h，若y₀-p＜h(x)≤y₀或y₀-p+1＜h(x)＜1，则F_x＝F_x+1；

其中，原始数据中x的估计频率计算方式如下：

S44、针对X_N中每条数据x，令F_x＝0，遍历所有用户发来的y₁，若x∈y₁，则F_x＝F_x+1；

其中，原始数据中x的估计频率计算方式如下：

进一步的，该方法中，用户数据指定条数m由服务器直接确定或者按照一定比例确定，用户在本地对自身数据条数进行扰动，并将扰动后的结果发送给服务器，服务器再聚合计算得到用户数据条数估计值。

所述方法，对于虚假数据域X_T，其确定计算过程包括如下过程：

a)若原始数据域连续，则首先找出原始数据域X的边界值X_u和X_d，X_u表示上边界，X_d表示下边界，然后根据上边界和下边界进行扩展，构造虚假数据集X_T，若m为偶数，则若m为奇数，则若有数据范围限定导致无法向其中一端继续扩展，则向另一端继续扩展直至选够m条虚假数据；

b)若原始数据域非连续，则首先找出原始数据域X的边缘数据域X_E，即若x属于X_E，则必有数据x′与x相邻且然后通过向X_E中的数据添加拉普拉斯噪声，挑选出m条不在X中的虚假数据构成X_T。

有益效果：与现有技术相比，本发明采用了本地差分隐私的方法保护用户提交的敏感数据，可以抵抗具有任意背景知识的攻击者和防止来自不可信第三方服务器的隐私攻击；本发明通过降低对非敏感数据的保护力度，在原始方案的基础上提高了整体的数据效用和频率估计结果的准确度。

附图说明

图1为本发明实例的用户端流程示意图；

图2为本发明实例的服务器端流程示意图。

具体实施方式

以下结合具体实施例对上述方案做进一步说明。应理解，这些实施例是用于说明本发明而不限于限制本发明的范围。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明所述的是一种基于本地差分隐私的效用优化集合数据保护方法，所要解决问题的具体设置环境可以为：服务器收集用户数据，如位置数据，网页浏览数据，电影评分数据等，攻击者可能窃听用户提交数据的过程，攻击者也可能通过黑客攻击的方式从服务器端获取到用户提交的数据，使得参与者的隐私受到危害。本发明通过让参与者在自己本地扰动数据之后再提交，同时服务器可以根据接收到的扰动数据进行聚合，计算得到最终的统计结果，从而保障原始数据的安全，即无论通过何种手段，攻击者只能拿到用户扰动后的数据。

具体的，本发明所述的基于本地差分隐私的效用优化集合数据保护方法实施步骤如下：

S1：服务器将原始数据域X划分为敏感数据域X_S和非敏感数据域X_N，根据实际情况确定用户数据指定条数m，虚假数据域X_T和所使用的隐私预算ε，并把X_S，X_N，X_T，m和ε公开给用户。

关于确定m的方式，具体可以按照如下三种方式确定：

a.服务器根据实际情况直接指定

b.用户数据条数不需要保护时：所有用户将自己的条数都发给服务器，服务器计算得到m，满足90％的用户数据条数都小于等于m。

c.用户数据条数需要保护时：抽取一部分用户，如10％的用户，由用户在本地对自身数据条数进行扰动，并将扰动后的结果发送给服务器，服务器再使用相应的聚合方法计算得到用户数据条数估计值，这里可以选用OLH，OUE，GRR等本地差分隐私下的类别数据频率估计机制。然后服务器计算得到m，满足90％的用户数据条数估计值都小于等于m。并且为了保证整体隐私预算，这部分用户不再参与后续步骤S3和步骤S4。

进一步的，该步骤中，在确定了m后，构造一个大小为m的虚假数据集。存在如两种情况：

a.若原始数据域连续，则首先找出原始数据域X的边界值X_u和X_d，X_u表示上边界，X_d表示下边界，然后根据上边界和下边界进行扩展，构造虚假数据集X_T，若m为偶数，则若m为奇数，则若有数据范围限定导致无法向其中一端继续扩展，则向另一端继续扩展直至选够m条虚假数据。

b.若原始数据域非连续，则首先找出原始数据域X的边缘数据域X_E，即若x属于X_E，则必有数据x′与x相邻且然后通过向X_E中的数据添加拉普拉斯噪声，挑选出m条不在X中的虚假数据构成X_T。

S2：如果用户不满意对当前服务器公布的针对敏感数据的保护力度，或者是认为存在非敏感数据也需要保护，可以选择将这部分数据从自己的数据集合中剔除，然后用户再对自己的数据进行预处理，若数据条数大于m，则从中随机抽取m条，若数据条数小于m，则使用虚假数据补齐到m条，虚假数据由用户自己从X_T选择，虚假数据也属于非敏感数据。s′表示用户预处理后的数据，即s′＝{x₁,x₂,…,x_m}，X′表示全体数据域，即X′＝X∩X_T。

S3：用户根据s′中数据所属类别，对之进行扰动，并把扰动后的数据和扰动中使用的哈希函数发送给服务器。

进一步的，在步骤S3中，用户端数据处理步骤为：

S31：由用户自己选择哈希函数h:X→[0.0,1.0)，即哈希函数h的输入域为全体数据域X′，输出域为[0.0,1.0)，然后对s′中每一条数据进行哈希，得到哈希后的数据v＝{h(x₁),h(x₂),…,h(x_m)}＝{v₁,v₂,…,v_m}。

说明是，步骤(S31)中，可以由服务器指定一系列哈希函数H，然后用户从中挑选一个使用。

S32：计算覆盖长度正则化因子Ω＝mpe^ε+1-mp，覆盖区域C_v＝{t|t∈[v_i,v_i+p)或[0,v_i+p-1),i∈[1,m]}和覆盖区域的总长度l，然后按照如下公式所示概率密度得到y₀：

S33：令针对s′中每一条数据x_i，若x_i∈s′_N，/>且/> 则将x_i加入集合y₁中。

S34：将h，y₀和y₁发送给服务器。

S4：服务器根据用户发送的扰动后数据和扰动中使用的哈希函数进行统计分析，估算出原始数据的频率分布结果。

进一步的，在步骤S4中，服务器估算原始数据频率分布结果步骤为：

S41：服务器收集到全部n个参与者发送的扰动结果，将结果分为两组，第一组是所有用户发来的y₀和h，第二组是所有用户发来的y₁。

S42：计算覆盖长度正则化因子Ω＝mpe^ε+1-mp，正确覆盖概率错误覆盖概率P_f＝p。

S43：针对X_S中每条数据x，令F_x＝0，遍历所有用户发来的y₀和h，若y₀-p＜h(x)≤y₀或y₀-p+1＜h(x)＜1，则F_x＝F_x+1。相应的，原始数据中x的估计频率计算方式如下：

S44：针对X_N中每条数据x，令F_x＝0，遍历所有用户发来的y₁，若x∈y₁，则F_x＝F_x+1。相应的，原始数据中x的估计频率计算方式如下：

结合图1，基于本地差分隐私的效用优化集合数据保护方法中用户端具体流程步骤如下：

步骤一：用户服务器得到敏感数据域X_S，非敏感数据域X_N，虚假数据域X_T，集合数据条数m和隐私预算ε。

步骤二：用户判断自己的集合数据条数是否为m，若是，执行步骤四；若不是，执行步骤三。

步骤三：若用户数据条数小于m，则使用X_T中的虚假数据将其填充到m条；若大于m，则从中抽取m条。

步骤四：用户使用哈希函数h对集合数据s′中每一条数据进行哈希，得到哈希后的数据v＝{v₁,v₂,…,v_m}。

步骤五：以如下公式所示概率密度得到y₀：

其中覆盖长度正则化因子Ω＝mpe^ε+1-mp，覆盖区域C_v＝{t|t∈[v_i,v_i+p)或[0,v_i+p-1),i∈[1,m]}，l为覆盖区域的总长度。令/>针对s′中每一条数据x_i，若x_i∈s′_N，/>且/>则将x_i加入集合y₁中。

步骤六：将使用的哈希函数h和扰动结果y₀，y₁发送给服务器。

结合图2，基于本地差分隐私的效用优化集合数据保护方法中服务器端具体流程步骤如下：

步骤一：服务器确定敏感数据域X_S，非敏感数据域X_N，虚假数据域X_T，集合数据条数m和隐私预算ε，并发送给所有用户。

步骤二：服务器收集到全部n个参与者发送的扰动结果，将结果分为两组，第一组是所有用户发来的y₀和h，第二组是所有用户发来的y₁。

步骤三：遍历原始数据域X中所有数据x。

步骤四：判断数据x是否属于X_S，若是，执行步骤五；否则，执行步骤六。

步骤五：令F_x＝0，遍历所有用户发来的y₀和h，若y₀-p＜h(x)≤y₀或y₀-p+1＜h(x)＜1，则F_x＝F_x+1。相应的，x的估计频率计算方式如下：

步骤六：令F_x＝0，遍历所有用户发来的y₁，若x∈y₁，则F_x＝F_x+1。相应的，x的估计频率计算方式如下：

步骤七：服务器得到所有数据的频率估计结果。

下面是基于本地差分隐私的效用优化集合数据保护方法的实验结果。实验中采用的数据集是Anime Recommendations Database，这是Kaggle上的一个数据集，用于推荐动漫，里面记录了用户对12994部动漫的评分，每条评分都是一条记录，共有7813737条记录。本发明将每位用户评分的动漫作为一条集合数据，并将类别为成人、惊悚、恐怖的动漫作为敏感数据，处理后的数据条数为71662条，敏感数据域的大小|X_S|为1748。在实验中划分了7个隐私级别，隐私预算分别为0.2，0.3，0.5，1.0，2.0，3.0，5.0，用户数据条数m设定为231。在实验中每个用户在本地扰动自己的数据，并将结果发送给服务器，服务器统计并计算得到最终的频率分布结果。

基于本地差分隐私的效用优化集合数据保护方法在动漫数据集上的实验结果如表1和表2，避免随机性影响实验结果，将实验进行了10次，使用均方误差(mean-squareerror,MSE)作为实验的评估标准，均方误差是通过计算数据的频率估计结果和真实频率f_x差的平方得到的，即/>

表1不同隐私预算下的实验结果

表2是否区分敏感性数据的实验结果

表2是否区分敏感性数据的实验结果(续)

通过表1可以看到，虽然基于本地差分隐私的效用优化集合数据保护方法的频率估计结果与真实频率之间存在一定的偏差，但是这个偏差比较小，在服务器可以接受的范围之内，并且也可以通过增大隐私预算的方法来进一步地提高估计准确度。同时，虽然10次实验结果略有不同，但是波动程度都很小。此外，如果直接使用不加隐私保护的方式收集用户数据，那用户很可能因为担心隐私泄露问题而不愿意在提交自己的数据，或是提交一些虚假数据，这对服务器的数据分析工作是非常不利的。表2则比较了是否区分敏感性数据，可以看出，区分敏感与否可以将MSE降低一个数量级，也就是说，通过降低对非敏感数据的保护力度，可以大大提高估计准确性，即提高整体的数据效用。

本发明在可以保护用户的原始数据不被攻击者获取，抵抗具有任意背景知识的攻击者，和防止来自不可信第三方的隐私攻击的前提下，解决了现有本地差分隐私下的集合数据频率估计机制对数据敏感性差异考虑不够这一问题，通过适当降低对非敏感数据的保护力度，提高了整体的数据效用和频率估计准确性。

Claims

1.一种基于本地差分隐私的效用优化集合数据保护方法，其特征在于：包括以下步骤：

S1、服务器将原始数据域X划分为敏感数据域X_S和非敏感数据域X_N，且确定用户数据指定条数m，虚假数据域X_T和所使用的隐私预算ε，并把X_S，X_N，X_T，m和ε公开给用户；

s'表示用户预处理后的数据，s'＝{x₁,x₂,…,x_m}，X'表示全体数据域，X'＝X∩X_T；

S3、用户根据s'中数据所属类别进行扰动，并把扰动后的数据和扰动中使用的哈希函数发送给服务器；

其中，用户端原始数据的扰动包括如下过程：

S31、由用户自己选择哈希函数h:X→[0.0,1.0)，哈希函数h的输入域为全体数据域X'，输出域为[0.0,1.0)，然后对s'中每一条数据进行哈希，得到哈希后的数据v＝{h(x₁),h(x₂),…,h(x_m)}＝{v₁,v₂,…,v_m}；

S32、计算覆盖长度正则化因子Ω＝mpe^ε+1-mp，覆盖区域C_v＝{t|t∈[v_i,v_i+p)或[0,v_i+p-1),i∈[1,m]}和覆盖区域的总长度l，然后按照如下所示的概率密度计算得到扰动结果y₀：

S33、令针对s'中每一条数据x_i，若x_i∈s'_N，/>且/> 则将x_i加入集合y₁中；

S34、将h，y₀和y₁发送给服务器；

S4、服务器根据用户发送的扰动后数据和扰动中使用的哈希函数进行统计分析，估算出原始数据的频率分布结果；

该步骤中，服务器估算频率分布结果包括如下步骤：

S43：针对X_S中每条数据x，令F_x＝0，遍历所有用户发来的y₀和h，若y₀-p<h(x)≤y₀或y₀-p+1<h(x)<1，则F_x＝F_x+1；

其中，原始数据中x的估计频率计算方式如下：

2.根据权利要求1所述的基于本地差分隐私的效用优化集合数据保护方法，其特征在于：该方法中，用户数据指定条数m由服务器直接确定或者按照一定比例确定，用户在本地对自身数据条数进行扰动，并将扰动后的结果发送给服务器，服务器再聚合计算得到用户数据条数估计值。

3.根据权利要求1所述的基于本地差分隐私的效用优化集合数据保护方法，其特征在于：对于虚假数据域X_T，其确定计算过程包括如下过程：

b)若原始数据域非连续，则首先找出原始数据域X的边缘数据域X_E，若x属于X_E，则必有数据x'与x相邻且然后通过向X_E中的数据添加拉普拉斯噪声，挑选出m条不在X中的虚假数据构成X_T。