CN113297621A

CN113297621A - 一种基于个性化本地差分隐私的数据收集方法

Info

Publication number: CN113297621A
Application number: CN202110650478.9A
Authority: CN
Inventors: 朱友文; 贺星宇; 宋仕宏; 王钺程; 李明洋; 张帅
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2021-06-10
Filing date: 2021-06-10
Publication date: 2021-08-24
Anticipated expiration: 2041-06-10
Also published as: CN113297621B

Abstract

本发明属于信息安全领域，具体涉及一种基于个性化本地差分隐私的数据收集方法。该方法包括：服务器将原始数据集合划分，设置若干个隐私级别，划分结果与隐私级别公开。用户选择一个隐私级别，在本地对自己的原始数据进行编码扰动，并将扰动后数据发送至服务器。服务器收集数据并在各个隐私级别下进行统计分析，估算出原始数据的频率分布结果，并将每个隐私级别下的结果进行加权组合，得到最终的频率分布结果。本发明可以抵抗具有任意背景知识的攻击者和防止来自不可信第三方的隐私攻击；本发明从用户层面实现了个性化并考虑了不同数据的敏感性差异，使用户可以自行把控隐私保护力度，数据不会出现过度保护，服务器得到的估计结果更为准确。

Description

一种基于个性化本地差分隐私的数据收集方法

技术领域

本发明属于信息安全领域，具体涉及一种基于个性化本地差分隐私的数据收集方法。

背景技术

随着信息技术的迅速发展，越来越多的个人信息被收集，并出于各种目的被分析研究。例如人们的位置信息会被收集，来进行路线规划或者景点推荐；人们的医疗记录会被收集，来进行健康风险的评估或者疾病的预期诊断。这些行为固然为用户带来了很大的便利，但是也会引发隐私泄漏的问题，比如泄漏个人的家庭住址或者健康信息。在这种环境下，如何保护个人信息，已成为社会普遍关注的问题。

差分隐私是由Dwork[DWORK，C.Differential privacy.In ICALP(2006)，pp.1-12.]提出的一种隐私保护模型，与之前的大部分隐私保护模型不同，该模型由数学语言严格定义，其最大的特点就是可以对隐私保护程度进行量化，使人们可以清晰地知晓自己的隐私受到了何等力度的保护。而且该模型不关心攻击者具有多少背景知识，具有十分卓越的隐私保护功能。在差分隐私模型中，用户的原始数据在未加保护的情况下，直接发送给第三方服务器。服务器会对用户的原始数据进行扰动，以提供隐私保护。这要求我们在使用这一模型的时候，需要一个可信的第三方。但在实际应用中，很难找到一个完全可信的第三方，因此研究者们提出了本地差分隐私这一模型。

本地差分隐私是差分隐私的一个变种，与之前的模型不同，在本地差分隐私中用户的原始数据会在用户本地进行扰动，发送给服务器的数据并不是原始数据，而是用户在本地扰动后的数据。用户的原始数据只会被用户个人知晓，因此不像传统差分隐私那样需要一个可信的第三方，大大提高了模型的实用性。本地差分隐私的形式化定义如下：一个扰动算法PE：X→Y，其中X为定义域，Y为值域。该扰动算法满足∈-本地差分隐私，当且仅当，对于任意两个用户的数据x，x′∈X，以及任意可能的输出y∈Y满足不等式Pr[PE(x)＝y]≤Pr[PE(x′)＝y]*e^∈ (Pr[PE(x)＝y]表示该扰动算法输入x时，输出y的概率)。上述不等式中的∈被称为隐私预算，通常∈≥0。隐私预算这一参数可以用来衡量两个不同的原始数据映射结果的相似性，因此可以衡量该模型中隐私保护的力度。通常来说，隐私预算越大，隐私保护的力度就越小，但最后数据的估计准确度就越高。在应用本地差分隐私模型时，需要综合考虑用户的隐私保护需求和数据使用者的准确度需求，设置一个合适的隐私预算。

但现有的大部分本地差分隐私机制在使用时存在两个问题：其一是没有考虑到用户的个性化隐私保护需求。在现有的本地差分隐私机制中所有的用户都使用同一个隐私预算对自己的原始数据进行扰动，这代表着每个用户不能自由选择隐私预算，只能以相同的力度保护自己的隐私，使得部分用户的隐私保护需求无法得到满足。例如在专利【CN202010543185.6】中，系统会设置一个全局的隐私预算∈，用户在扰动过程中只能使用这个隐私预算，不能自行选择，这使得某些用户无法满足自己的个性化隐私保护需求。其二是没有考虑到不同数据类别的敏感性差异。在大部分差分隐私模型中，均默认不同类别的数据同等敏感，对不同的原始数据均采用相同的扰动方式进行扰动。但在实际应用中不同类别的原始数据需要的隐私保护力度并不相同。例如当我们在统计作弊学生人数时，“做过弊”这一答案毫无疑问比“没做过弊”更为敏感，需要更大的隐私保护力度；当我们在统计人们所患疾病时，“艾滋”、“癌症”这些疾病毫无疑问比“感冒”更为敏感，同样需要更大的隐私保护力度。但大部分现有的本地差分隐私机制并没有注意到不同数据之间的敏感性差异。在那些机制中，所有的数据都默认同等重要，以相同的方式执行扰动过程，例如专利【CN202010033257.2】中，不同类别数据的扰动方式是一样的，均使用了相同的随机响应技术添加噪声进行扰动。在该专利中虽然用户可以自行选择隐私预算，但并未在系统层面为不同类别的数据设置不同的扰动方式。这种做法忽略了不同类别数据之间敏感性的差异，将它们以同一扰动方式进行扰动，这会导致低敏感性数据受到了过度保护，使得最终的统计结果准确度降低；或者高敏感性数据的隐私保护需求没有满足，增大了隐私泄漏风险。

发明内容

本发明针对现有的本地差分隐私方案对于个性化考虑不足这一问题，提出一种基于个性化本地差分隐私的数据收集方法，主要包括以下步骤：

S1：服务器将原始数据集合划分为敏感数据集合X_S和非敏感数据集合X_N两部分，把划分结果公开；服务器设置h个隐私级别，每个级别对应不同的隐私预算，当隐私级别为t时，该级别对应的隐私预算用∈_t表示(t＝1，2，3…，h)，所有隐私级别和隐私预算一并公开；

S2：用户根据自身情况与习惯特征，任意选择一个隐私级别；用户在本地将自己的原始数据编码并扰动，随后将选择的隐私级别和扰动数据发送给服务器；

S3：服务器将用户发送的扰动数据进行聚合，数据被聚合划分至h个集合中；该h个集合与S1中设置的h个隐私级别一一对应；

S4：服务器分别对每个隐私级别对应集合中的扰动数据进行统计分析，估算出所有原始数据的频率分布结果；

S5：服务器对所有隐私级别下的频率分布结果进行加权组合，得到最终的频率分布结果。

在步骤S2中，所述用户在本地将自己的原始数据编码并扰动，包括：

S21：用户将自己的原始数据在本地编码成长度为|X_S|+|X_N|的向量，该向量每一位对应着一种原始数据，前|X_S|位对应着|X_S|种敏感数据，后|X_N|位对应着 |X_N|种非敏感数据；该向量用户原始数据对应位为1，其他位均为0；

S22：对向量的每一位分别进行扰动，若向量该位为1则有概率扰动成0，若向量该位为0，则有概率扰动成1；对于向量的前|X_S|位，按照如下概率进行扰动：

对于向量的后|X_N|位，按照如下概率进行扰动：

其中v表示扰动前向量，v_i表示扰动前向量v的第i位；u表示扰动后向量，u_i表示扰动后向量u的第i位；Pr(u_i|v_i)表示v_i扰动成u_i的概率；t表示用户所选的隐私级别，∈_t表示用户所选的隐私级别对应的隐私预算。

在步骤S3中，服务器按照隐私级别对用户发送的扰动数据进行聚合，同一隐私级别的扰动数据被聚合至一个集合中，聚合完成后隐私级别数量与集合数量相等。

在步骤S4中，所述服务器分别对每个隐私级别对应集合中的扰动数据进行统计分析，估算出原始数据的频率分布结果，包括：

S41：服务器选择一个未得到频率分布结果的隐私级别t；

S42：服务器选择一个未在隐私级别t下得到向量数量的原始数据x_i，对隐私级别t对应集合中的扰动后向量进行统计，得到x_i对应位上为1的向量数量 Count_t(x_i)；

S43：迭代执行S42，直至在隐私级别t下所有的原始数据均得到对应的向量数量；

S44：服务器对所有原始数据的频率进行估计，若原始数据x_i∈X_S，则计算

若原始数据x_i∈X_N，则计算

其中

表示隐私级别t下估计出的原始数据x_i的频率，n_t表示选择隐私级别t的用户数量；

S45：迭代执行S41-S44，直至所有的隐私级别都得到原始数据的频率分布结果。

在步骤S5中，所述服务器对所有隐私级别下的频率分布结果进行加权组合，包括：

S51：服务器对每个隐私级别生成一个权重，计算方式计算如下：

其中ω_t(t＝1，2，3…，h)代表隐私级别t的权重，

表示所有非敏感数据的频率总和，可由S44中求出的估计频率对

进行近似替代；

S52：服务器选择一个未得到最终估计频率的原始数据x_i，将S4中计算出来的h个估计频率

以S51中计算的权重ω_t加权组合(t＝1，2，3…，h)，得到原始数据x_i的最终估计频率，具体计算方式如下：

其中

即为原始数据x_i的最终估计频率；

S53：迭代执行S52，直至所有的原始数据均得到最终估计频率。

本发明的目的在于解决传统的本地差分隐私方案中对个性化考虑不足这一问题，本发明的个性化存在于两个层面，其一是用户可以自由选择隐私预算，以此来控制用户自己的隐私保护力度，在用户层面实现了个性化。其二是数据被划分为敏感数据和非敏感数据两部分，有着不同的扰动方法，从系统层面考虑了不同数据类别的敏感性差异，在数据层面实现了个性化。

本发明的突出的实质性特点和显著性进步主要体现在以下几点：

(1)本发明采用了基于本地差分隐私的方法保护用户的数据，可以抵抗具有任意背景知识的攻击者和防止来自不可信第三方数据收集者的隐私攻击。

(2)本发明在隐私保护的前提下，从用户层面实施了个性化，使得用户可以根据自己的实际需求来选择不同的隐私预算，以达到不同的隐私保护力度。

(3)本发明从系统层面考虑了不同数据类别的敏感性差异，将数据分为敏感部分和非敏感部分，以不同的扰动方法分别对其扰动，这使得数据不会像之前那样受到过度保护，最后可以得到准确度更高的统计结果。

(4)本发明设计了多个隐私级别下频率分布结果的加权组合方法，服务器为每个隐私级别计算相应的权重，并将对应的频率分布结果按权重相加，可减少估计过程中的误差，使得最终的频率分布结果有着更好的数据效用。

本发明的目的、优点和特点，将通过下面优选实施例的非限制性说明进行解释。这些实施例仅是应用本发明技术方案的典型范例，凡采取等同替换或者等效变换而形成的技术方案，均落在本发明要求保护的范围之内。

附图说明

下面结合附图及实施例对本发明作进一步描述：

图1为本发明实例的用户流程示意图

图2为本发明实例的服务器流程示意图

图3为本发明实例的总体流程示意图

具体实施方式

以下结合具体实施例对上述方案做进一步说明。应理解，这些实施例是用于说明本发明而不限于限制本发明的范围。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

结合图1，本实施例的个性化本地差分隐私的数据收集方法总体实施步骤如下：

S21：用户将自己的原始数据在本地编码成长度为|X_S|+|X_N|的向量，该向量每一位对应着一种原始数据，前|X_S|位对应着|X_S|种敏感数据，后|X_N|位对应着|X_N|种非敏感数据；该向量用户原始数据对应位为1，其他位均为0；

对于向量的后|X_N|位，按照如下概率进行扰动：

S41：服务器选择一个未得到频率分布结果的隐私级别t；

若原始数据x_i∈X_N，则计算

其中

其中ω_t(t＝1，2，3…，h)代表隐私级别t的权重，

进行近似替代；

其中

即为原始数据x_i的最终估计频率；

结合图2，个性化本地差分隐私的数据收集方法中用户端具体流程步骤如下：

步骤一：获取服务器公布的数据划分结果和隐私级别。敏感数据集合记为X_S，敏感数据维度为|X_S|；非敏感数据集合记为X_N，非敏感数据维度为|X_N|。用户根据自身情况与主观偏好自行选取一个隐私级别，记为t，对应的隐私预算为∈_t。

步骤二：用户将自己的原始数据在本地编码为长度为|X_S|+|X_N|的向量，该向量每一位对应一个原始数据，前|X_S|位对应|X_S|个敏感数据，后|X_N|位对应|X_N| 个非敏感数据。该向量只有用户数据对应位为1，其他位均为0。

步骤三：用户对向量的每一位分别进行扰动，若向量该位为1则有概率扰动成0，若向量该位为0，则有概率扰动成1；对于向量的前|X_S|位，按照如下概率进行扰动：

对于向量的后|X_N|位，按照如下概率进行扰动：

其中v表示扰动前向量，v_i表示扰动前向量u的第i位；u表示扰动后向量，u_i表示扰动后向量u的第i位；Pr(u_i|v_i)表示v_i扰动成u_i的概率；t表示用户所选的隐私级别，∈_t表示用户所选的隐私级别对应的隐私预算。

步骤四：将扰动后得到的向量u和用户所选的隐私级别t发送给服务器。

结合图3，个性化本地差分隐私的数据收集方法中服务器端具体流程步骤如下：

步骤一：服务器将原始数据划分为敏感数据集合X_S和非敏感数据集合X_N两部分，并把划分结果公开。服务器设置h个隐私级别，每个级别具有不同的隐私预算，例如当隐私级别为t时，隐私预算用∈_t表示(t＝1，2，3，...，h)，这些隐私级别和隐私预算公开。

步骤二：服务器将用户发送的扰动后数据以隐私级别进行聚合，同一隐私级别的数据放到一个集合中，有多少个隐私级别就有多少个集合。在步骤一中，服务器设置了h个隐私级别，所以会有h个集合。

步骤三：服务器选择一个未得到频率分布结果的隐私级别t；

步骤四：服务器选择一个未在隐私级别t下得到向量数量的原始数据x_i，对隐私级别t对应集合中的扰动后向量进行统计，得到x_i对应位上为1的向量数量 Count_t(x_i)。迭代执行步骤四，直至在隐私级别t下所有的原始数据均得到对应的向量数量。

步骤五：服务器对所有原始数据的频率进行估计，若原始数据x_i∈X_S，则计算

若原始数据x_i∈X_N，则计算

其中

表示隐私级别t下估计出的原始数据x_i的频率，n_t表示选择隐私级别t的用户数量。迭代执行步骤三到步骤四，直至所有的隐私级别都得到原始数据的频率分布结果。

步骤五：若共有h个隐私级别，则每个级别下都有一个原始数据的频率估计结果，服务器对每个隐私级别生成一个权重，计算方式计算如下：

其中ω_t(t＝1，2，3…，h)代表隐私级别t的权重，

进行近似替代；

服务器选择一个未得到最终估计频率的原始数据x_i，将步骤四中计算出来的 h个估计频率

其中

即为原始数据x_i的最终估计频率。迭代执行步骤五，直至所有的原始数据均得到最终估计频率。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

下面是基于个性化本地差分隐私的数据收集方法的实验结果。实验中采用的数据集是Bank Marketing Data Set，这是一间葡萄牙银行的营销数据集，里面记录了银行客户的信息，我们使用其中‘工作(job)’这栏信息。该数据集中共有 41188条数据，数据类别共有12个。在实验中划分了5个隐私级别，隐私预算分别为1.0，2.0，3.0，4.0，5.0，对应隐私级别分别为1，2，3，4，5。在实验中每个用户随机选择一个隐私级别，在本地扰动自己的数据，并将数据与隐私级别发送给服务器。服务器在每个级别统计出一个原始数据的频率分布结果，最后将这些结果进行加权组合，得到最终的频率分布结果，也就是银行客户中每个职业所占比例。其中误差的计算方式为：误差＝|真实频率-估计频率|/真实频率×100％。实验结果如表1所示。可以看出随着隐私级别的扩大，误差的数值在不断减小，而加权组合结果的误差是最小的，这也与我们上述的发明实质性特点和显著性进步一致，从实验角度验证了本发明的有效性。

表1 Bank Marketing Data Set上的实验结果

Claims

1.一种基于个性化本地差分隐私的数据收集方法，其特征在于，包括以下步骤：

S1：服务器将原始数据集合划分为敏感数据集合X_S和非敏感数据集合X_N两部分，把划分结果公开；服务器设置h个隐私级别，每个级别对应不同的隐私预算，当隐私级别为t时，该级别对应的隐私预算用ε_t表示(t＝1，2，3…，h)，所有隐私级别和隐私预算一并公开；

2.根据权利要求1所述的基于个性化本地差分隐私的数据收集方法，其特征在于，在步骤S2中，所述用户在本地将自己的原始数据编码并扰动，包括：

对于向量的后|X_N|位，按照如下概率进行扰动：

其中v表示扰动前向量，v_i表示扰动前向量v的第i位；u表示扰动后向量，u_i表示扰动后向量u的第i位；Pr(u_i|v_i)表示v_i扰动成u_i的概率；t表示用户所选的隐私级别，ε_t表示用户所选的隐私级别对应的隐私预算。

3.根据权利要求1所述的基于个性化本地差分隐私的数据收集方法，其特征在于，在步骤S3中，服务器按照隐私级别对用户发送的扰动数据进行聚合，同一隐私级别的扰动数据被聚合至一个集合中，聚合完成后隐私级别数量与集合数量相等。

4.根据权利要求1所述的基于个性化本地差分隐私的数据收集方法，其特征在于，在步骤S4中，所述服务器分别对每个隐私级别对应集合中的扰动数据进行统计分析，估算出原始数据的频率分布结果，包括：

S41：服务器选择一个未得到频率分布结果的隐私级别t；

S42：服务器选择一个未在隐私级别t下得到向量数量的原始数据x_i，对隐私级别t对应集合中的扰动后向量进行统计，得到x_i对应位上为1的向量数量Count_t(x_i)；

若原始数据x_i∈X_N，则计算

其中

5.根据权利要求1所述的基于个性化本地差分隐私的数据收集方法，其特征在于，在步骤S5中，所述服务器对所有隐私级别下的频率分布结果进行加权组合，包括：

其中ω_t(t＝1，2，3…，h)代表隐私级别t的权重，

进行近似替代；

其中

即为原始数据x_i的最终估计频率；