CN116186757A

CN116186757A - 一种效用增强的条件特征选择差分隐私数据发布方法

Info

Publication number: CN116186757A
Application number: CN202211647577.2A
Authority: CN
Inventors: 叶欣欣; 邓海; 朱友文
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2022-12-21
Filing date: 2022-12-21
Publication date: 2023-05-30

Abstract

本发明公开了一种效用增强的条件特征选择差分隐私数据发布方法，该方法首先对原始数据集进行预处理，然后利用条件互信息对预处理后的数据集进行关联特征选择；再归一化数据，对满足阈值条件的特征对应的数据值进行微聚集处理，得到若干个规模大小为k的聚类，并使用轮廓系数计算得到局部最优的k值；接着，根据重新定义的特征依赖敏感度，对每个聚类添加满足条件的噪声，重新分配隐私预算实现差分隐私；最后，对于扰动后的数据进行发布，发布的数据可进行计数查询和分类等任务分析。本发明可以抵御拥有强大背景知识的敌手的个体数据隐私攻击，在个体敏感数据得到隐私保证的前提下，提高数据发布的可用性。

Description

一种效用增强的条件特征选择差分隐私数据发布方法

技术领域

本发明涉及信息安全隐私技术领域，尤其涉及一种效用增强的条件特征选择差分隐私数据发布方法。

背景技术

信息共享和知识交流的迅速发展，使得产生的数据呈爆炸式增长，这些数据(个人薪资、医疗记录、消费习惯、偏好等)通常包含大量敏感信息。服务提供者为了提供更精准的服务更热衷于收集和分析个体数据，从而造成个体或组织的隐私威胁。实际上，数据发布的隐私保护对象是用户敏感数据与个体身份之间的对应关系，在对已发布数据进行查询和分析等任务中只需要阻断个体敏感信息与身份之间的标识。

为保护用户隐私，k-匿名及其扩展等传统隐私模型陆续被研究使用。然而，由于无法确定攻击者所掌握的背景知识，一些新型攻击的出现使得传统隐私保护模型出现漏洞，已经一致被证实了保护敏感信息的限制。并且，数据或特征之间总存在各种各样的关联性，这些关联性可以通过多表连接等重识别手段造成严重的隐私泄露。针对层出不穷的攻击方法和现有隐私保护机制的缺陷，微软研究院的Dwork团队提出了差分隐私模型。差分隐私是一种建立在坚实的数学基础之上的隐私保护模型，能严格定义隐私保护效用并提供评估量化的方法。通过对数据添加扰动的方式保护所发布数据中潜在的用户敏感信息，即便攻击者已掌握数据集中除某一记录外的其他所有记录的信息，攻击者仍然无法推测出原始数据。

差分隐私的数学定义如下:一个随机算法A满足ε-差分隐私，当且仅当对于所有的相邻数据库D₁和D₂中，算法A的所有可能的输出

满足不等式Pr(A(D₁)∈S)≤exp(ε)×Pr(A(D₂))。其中，D₁与D₂相差仅为一条记录，ε≥0为隐私预算，可以衡量数据的隐私保护程度，ε越接近于0，隐私保护程度越高，同时，数据扰动程度越高，误差越大。此外，数据隐私保护程度还与查询或分类算法的敏感度有关，敏感度越高，差分隐私所需的噪声尺度越高，误差越大。在实际应用中，在实现严格差分隐私时，数据的失真程度较高，可用性较低。因此，在差分隐私数据发布和数据挖掘场景中权衡数据的隐私性和可用性是一个重要的挑战。

为了应对差分隐私数据发布中隐私保护性较强和数据效用低的挑战，差分隐私技术与现有的机器学习模型相结合组成一个新的模型，统筹二者的优点并协同发挥作用。一方面，该模型能通过利用机器学习的模型特性来降低隐私算法的查询敏感度，从而提高数据可用性；另一方面，该算法能实现差分隐私的基本定义，能阻断个体敏感信息与身份之间的标识。在真实数据集上应用该模型，生成扰动后的待发布数据，待发布数据能在保护个体敏感信息的前提下提高数据效用。

发明内容

本发明的目的是提供一种效用增强的条件特征选择差分隐私数据发布方法，一方面实现用户数据可以得到有力的隐私保证；另一方面可以通过降低隐私算法敏感度来提高数据可用性，从而能提高统计查询和分类分析等任务的可用性。

技术方案：一种效用增强的条件特征选择差分隐私数据发布方法，步骤如下：

S1、对原始数据集进行预处理，包括对于异常值的删除和缺失值的增补；

S2、分开处理数值数据和类别数据，对连续数值数据进行离散化，对类别数据依据词向量进行映射和编码，从WordNet 2.1中提取分类数据的特征域；

S3、根据数据集的特征敏感程度划分成敏感特征集S和准标识符特征集Q；且计算准标识符特征集Q与敏感特征集S之间的条件互信息，并计算互信息阈值I_θ；

S4、选出符合阈值I_θ要求的特征集合，归一化处理数据值，并根据特征集合对应的数据进行微聚集，且不同类型数据微聚集时选择不同的度量距离；

S5、微聚集得到若干个规模大小为k的簇{C₁,…,C_n/k}，使用轮廓系数度量局部最优的k值；

S6、对n/k个簇聚类添加扰动，重新进行隐私预算分配实现差分隐私，得出待发布数据集，可用于查询和分类任务。

基于上述的方案，下面做进一步的补充说明。

其中，步骤S1，对原始数据进行缺失值和异常值预处理、数据的敏感特征和准标识符特征的划分；基于数据敏感特征和准标识符特征的条件互信息选择；选择出满足阈值要求的关联性强的特征，对相应的类别型数据和数值数据分别进行微聚集操作；对为聚集后的数据进行扰动，根据不同数据类型分别实现差分隐私拉普拉斯机制和指数机制，从而得到可以用于统计查询或分类分析的待发布数据。对原始数据集进行预处理，通过删除或增补一定的缺失值、异常值；

步骤S2，分开处理数值数据和类别数据，对连续数值数据进行离散化，对类别数据进行映射和编码，并根据数据集的特征敏感程度划分成敏感特征集S和准标识符特征集Q；

步骤S3，计算准标识符特征集Q与敏感特征集S之间的条件互信息，设置互信息阈值I_θ；条件互信息和互信息阈值的计算公式如下：

假设在给定数据集D中特征A_y(y∈{1,…,d})的值时，由其他准标识符特征A_m(m∈{1,…,d}\{y})的知识而引起的关于敏感特征A_s(s∈{1,…,d}\{y}\{m})的不确定度的缩减量。则任意特征A_m(m∈{1,…,d}\{y})和A_s在给定特征A_y(y∈{1,…,d})时的条件互信息如下：

求得任意准标识符特征与敏感特征的条件互信息之后，所有的特征对需要进行特征选择，主要过程是将特征对的条件互信息与阈值进行比较，阈值的计算公式为：

I_θ＝min_m,s(|Dom(A_m)|-1,|Dom(A_s)|-1)，

其中γ(0≤γ≤1)是一个决定期望相关程度的灵活的参数，设置γ＝0.25；Dom(A_m)表示准标识符特征A_m的域，Dom(A_s)表示敏感特征A_s的域。

对于步骤S4，选出符合阈值要求的特征集合，根据每次计算所得的条件互信息阈值I_θ，条件互信息越大，特征之间的依赖关系越强，选出大于阈值I_θ的所有特征集A_x(x∈{1,…,d}\{y})；归一化处理数据值，将数值标准化到[0,1]，归一化的计算公式为：

其中，a_i表示某个特征第i个值数据，特征的域范围为[a_min,a_max],,a_norm表示归一化后的值数据，通过标准化公式，将所有特征值标准化为[0,1]。

步骤S5，根据所选出的特征集合对应的数据进行微聚集，微聚集得到若干个规模大小为k的簇{C₁,…,C_n/k}；使用轮廓系数度量局部最优的k值。

微聚集是一种类似于聚类的手段，它通过迭代地创建至少k个元素的簇C_i(i＝2,…,n/k)，每个簇内的元素尽可能的相似，不同簇之间的元素尽可能不同，每个簇都可以选择一个代表性的记录来表示质心，并使用质心来替换簇内的其他值，微聚集具体实现步骤如下：

1)判断数据集D的规模是否大于3k，求出数据集D的平均记录a_c；

2)选择距离a_c记录最远的数据记录a_r；

3)选择距离记录a_r最远的数据记录a_s；

4)以a_r为质心，将距离a_r最近的k-1个记录组成一个簇C_r；

5)以a_s为质心，将距离a_s最近的k-1个记录组成一个簇C_s

6)从D中划去聚集好的簇：D\C_r\C_s

7)判断剩余的数据集D是否大于2k，求出剩余数据集的平均记录

8)迭代计算步骤1)-6)

9)将D中最后剩余的k(或不足k)个的值划分为一个簇

其中，微聚集得到若干个规模大小为k的簇{C₁,…,C_n/k}，使用轮廓系数度量局部最优的k值包括如下实现过程：给定具有n条记录的数据集D，微聚集成n/k个簇，对于簇中的每个实例a_i的轮廓系数都有:

其中，A(a_i)表示a_i到簇内实例之间的平均距离，B(a_i)表示a_i到不包含a_i的其他簇内实例的最小距离，S(a_i)∈[-1,1]，B(a_i)>>A(a_i)时，S(a_i)越接近+1，表明簇内内聚度很高和簇间耦合度很低。选择使得轮廓系数S(a_i)最大的k值。

步骤S6，根据数据类型的不同，对n/k个簇聚类分别添加实现差分隐私的扰动：对于数值数据，微聚集时使用欧式距离来进行距离度量，并使用拉普拉斯机制扰动数据达到差分隐私；对于类别数据，将特征中的特征取值映射到本体知识中(WordNet)，映射得出一个最小层级结构H_w，数据值进行微聚集时使用语义距离度量，并使用指数机制扰动数据达到差分隐私；得出待发布数据集，可用于查询和分类包括如下步骤：

所述的数值数据实现差分隐私拉普拉斯机制详细过程如下：

1)全局敏感度：

D₁,D₂为相差仅为一个记录的两个相邻数据集；

2)Laplace机制定义：对于任意查询

ε表示隐私预算；/>

3)微聚集后每个簇所需敏感度计算：

其中n为数据集D的数据记录数，k为每个聚类的记录数。

所述的语义距离定义和类别数据实现差分隐私指数机制详细过程如下：

1)语义距离定义：特征A的定义域为τ(A)，对于特征A的两个类别值a₁和a₂，语义距离d:

为非共同分类祖先的对数函数：

为在τ(A)中特征值为a_i的分类祖先集合，语义距离符合数学意义上的距离测量，并满足非负性、对称性、反身性和三角形不等式的性质。

2)指数机制定义：给出一个评分函数q(D,a_i)，全局敏感度为

D₁,D₂为相差仅为一个记录的两个相邻数据集，a_i为输出为一组离散数据中的元素，/>

具体的，对于隐私预算的重新分配问题做了新的调整，将传统的总隐私预算均衡分配给多维特征调整为加权隐私预算的分配。设原始数据集D有d维特征，总的隐私预算为ε，经过条件特征选择微聚集的差分隐私算法之后，计算出每一特征所占的权重

根据权重值对条件特征选择后的特征重新分配加权隐私预算，从而能更合理地保护隐私数据。

有益效果：与现有技术相比，本发明采用了条件特征选择的微聚集差分隐私数据发布方法，可以抵御拥有强大背景知识的第三方敌手的个体数据隐私攻击；本发明可以在个体敏感数据得到隐私保证的前提下，有效降低隐私算法的敏感度，从而提高数据发布的可用性。此外，该方法能在计数查询和数据分类等任务上提高查询准确度和分类精度。

附图说明

图1为本发明提供的用户数据与隐私模型交互工作步骤流程示意图；

图2为本发明提供的效用增强的条件特征选择差分隐私数据发布模型实现流程示意图。

具体实施方式

为了本领域技术人员充分的理解和实施本发明所提供的技术方案，下面结合附图对本发明作进一步的说明。

本发明实施例的背景设置：可信第三方服务器将收集到的用户数据集，如政府部门统计到的人口普查数据集、医疗数据集等，这些数据集包含着大量的个体用户敏感信息，直接发布会导致大量敏感信息泄露；同时，这些数据存在着较大的分析价值，如医疗数据中传染性疾病的群体分析等能给人类健康发展带来的正面的作用，需要保持较大的数据可用性。

本发明提供的是一种效用增强的条件特征选择差分隐私数据发布方法，首先对原始数据进行缺失值和异常值预处理、数据的敏感特征和准标识符特征的划分；基于数据敏感特征和准标识符特征的条件互信息选择；选择出满足阈值要求的关联性强的特征，对相应的类别型数据和数值数据分别进行微聚集操作；对为聚集后的数据进行扰动，根据不同数据类型分别实现差分隐私拉普拉斯机制和指数机制，从而得到可以用于统计查询或分类分析的待发布数据。

参阅图1和图2，下面具体的说明本发明所述方法的实施过程。

图1是本发明提供的用户数据与隐私模型交互工作步骤流程示意图；具体的步骤包括：

步骤1中，可信第三方服务器对收集到的原始数据进行分类、整理，这些数据保护着大量的用户提交的个体信息，其中包括敏感和非敏感的数据。未经处理直接发布会损害用户的个体隐私，因此，需要对用户隐私数据进行保护。

在具体实施中，用户将个体数据提交给可信第三方服务器，服务器对收集到的原始用户数据进行分类、整理，生成真实的原始数据集D。

步骤2中，将现有的机器学习模型算法和差分隐私模型互相整合。

在具体实施中，机器学习中诸如特征选择、泛化、有监督的分类算法以及无监督的聚类等算法能很好的实现数据分析的相关任务，但这些算法没有较好地考虑数据隐私泄露问题。差分隐私能给数据带来较强的隐私保证，其数学定义如下:

一个随机算法A满足ε-差分隐私，当且仅当对于所有的相邻数据库D₁和D₂中，算法A的所有可能的输出

满足不等式Pr(A(D₁)∈S)≤exp(ε)×Pr(A(D₂))。其中，D₁与D₂相差仅为一条记录，ε≥0为隐私预算，可以衡量数据的隐私保护程度，ε越接近于0，隐私保护程度越高，同时，数据扰动程度越高，误差越大。当ε为一个较小的值，差分隐私容易使得数据失真较大。因此，针对具体任务，将机器学习模型和差分隐私整合起来协同发挥作用，能统筹两种模型的优势，解决更多的隐私问题。本发明中先对数据集进行条件特征选择和微聚集等操作，再针对不同类型的数据实现不同的差分隐私机制，从而生成可以进行发布的数据。

步骤3中，将原始数据应用整合好的隐私模型，生成可用于发布的数据集D′。

具体实施中，扰动模型生成的待发布数据集D′，D′尽可能近似原始数据集的统计分布，可用于进行统计数据的查询或分类任务。其中：数据查询者向数据集D′发送一些查询请求，D′响应查询请求，并将查询所得的结果反馈给数据查询者。

参阅图2，其为本发明提供的效用增强的条件特征选择差分隐私数据发布模型实现流程示意图。

本发明实施例中，首先对原始数据集进行预处理，如删除或增补一定的缺失值、异常值等；判断原始数据集的数据类型，分开处理数值数据和类别数据，对连续数值数据进行离散化，对类别数据进行映射和编码，并根据数据集的特征敏感程度划分成敏感特征集S和准标识符特征集Q。

本发明实施例中，计算准标识符特征集Q与敏感特征集S之间的条件互信息，设置互信息阈值I_θ，按照如下公式进行计算：

/>

其中A_y(y∈{1,…,d})为已知特征，求出其他准标识符特征A_m(m∈{1,…,d}\{y})与敏感特征A_s(s∈{1,…,d}\{y}\{m})的条件互信息。条件互信息的阈值计算公式为：

I_θ＝min_m,s(|Dom(A_m)|-1,|Dom(A_s)|-1)，

本发明实施例中，条件互信息越大，特征之间的依赖关系越强，选出大于阈值I_θ的所有特征集A_x(x∈{1,…,d}\{y})；归一化处理数据值，将数值标准化到[0,1]，归一化的计算公式为：

本发明实施例中，微聚集步骤可以迭代地创建至少k个元素的簇C_i(i＝2,…,n/k)，每个簇内的元素尽可能的相似，不同簇之间的元素尽可能不同，每个簇都可以选择一个代表性的记录来表示质心，并使用质心来替换簇内的其他值，微聚集的具体实现步骤如下：

2)选择距离a_c记录最远的数据记录a_r；

3)选择距离记录a_r最远的数据记录a_s；

4)以a_r为质心，将距离a_r最近的k-1个记录组成一个簇C_r；

5)以a_s为质心，将距离a_s最近的k-1个记录组成一个簇C_s

6)从D中划去聚集好的簇：D\C_r\C_s；

8)迭代计算步骤1)-步骤6)；

9)将D中最后剩余的k(或不足k)个的值划分为一个簇。

本发明实施例中，微聚集步骤中簇规模k值大小的选取会影响整个算法的运行结果，因此，需要选择最优的k值。在得到若干个规模大小为k的簇{C₁,…,C_n/k}后，这里使用轮廓系数度量局部最优的k值。给定具有n条记录的数据集D，微聚集成n/k个簇，对于簇中的每个实例a_i的轮廓系数都有:

其中，A(a_i)表示a_i到簇内实例之间的平均距离，B(a_i)表示a_i到不包含a_i的其他簇内实例的最小距离，S(a_i)∈[-1,1]，B(a_i)>>A(a_i)时，S(a_i)越接近+1，表明簇内内聚度很高和簇间耦合度很低。根据轮廓系数S(a_i)的计算值，选择使得S(a_i)最大的k值。

本发明实施例中，根据数据类型的不同，对n/k个簇聚类分别添加实现差分隐私的扰动。对于数值数据，微聚集时使用欧式距离来进行距离度量，并使用拉普拉斯机制扰动数据达到差分隐私；对于类别数据，将特征中的特征取值映射到本体知识中(WordNet)，映射得出一个最小层级结构H_w，数据值进行微聚集时使用语义距离度量，并使用指数机制扰动数据达到差分隐私。

本发明实施例中，在得出待发布数据集之后，可用于查询和分类。具体的扰动过程如下所述：

所述的数值数据实现差分隐私拉普拉斯机制详细过程如下：

1)全局敏感度：

D₁,D₂为相差仅为一个记录的两个相邻数据集；

2)Laplace机制定义：对于任意查询f

ε表示隐私预算；

3)微聚集后每个簇所需敏感度计算：

其中n为数据集D的数据记录数，k为每个聚类的记录数。

为非共同分类祖先的对数函数：

2)指数机制定义：给出一个评分函数q(D,a_i)，全局敏感度为

本发明实施例中，对于隐私预算的重新分配问题做了新的调整，将传统的总隐私预算均衡分配给多维特征调整为加权隐私预算的分配。具体步骤为：设原始数据集D有d维特征，总的隐私预算为ε，经过条件特征选择微聚集的差分隐私算法之后，计算出每一特征所占的权重

下面是效用增强的条件特征选择差分隐私数据发布方法的实验结果。

实验中采用的数据集是Adult数据集，这是UCI机器学习库的一个数据集。本发明在处理完原始数据集的异常值和缺失值之后，数据集包含30162条数据记录，15个特征。在实验中划分了10个隐私等级，隐私预算ε设置分别为：0.2，0.4，0.6，0.8，1.0，1.2，1.4，1.6，1.8，2.0。此外，本发明所述方法步骤中需要计算微聚集后的簇规模大小，经过实验论证在Adlut数据集上得到k＝59时为局部最优。

效用增强的条件特征选择差分隐私数据发布方法在Adult数据集上的实验结果如表1，表2和表3。主要度量本发明所述方法在真实数据集上的应用情况：1.在不同的隐私预算ε情况下，对比隐私扰动前后数据集的平均绝对误差(MAE)，如表1。MAE的计算公式如下：

其中，q_i(a_i ^m)为第i次查询的真实数据的查询结果，q_i′(a_i ^m)为差分隐私扰动后的查询结果。

在不同隐私预算ε设置下，本实施例中从原始数据集中选择了5000条均衡的样本数据记录，分别使用了SVM和Logistic回归这两种机器学习分类方法来度量本发明方法的分类精度，如表2和表3。其中，表中的“无差分隐私”表示的是仅仅只对原始数据进行微聚集，没有添加差分隐私扰动的方法，因此该方法不受隐私预算ε的影响，始终保持一定的值不变。从表中可以看出，本发明方法对于机器学习的分类问题能保持较高的精度，在数据效用方面能得到较大的提升。

表1.Adult数据集中不同隐私预算下MAE度量结果

表2.Adult数据集中不同隐私预算下SVM分类结果

表3.Adult数据集中不同隐私预算下Logistic回归结果

整体而言，本发明所述的一种效用增强的条件特征选择差分隐私数据发布方法，通过结合机器学习中的相关模型与差分隐私协同发挥作用，先对数据集进行条件特征选择和微聚集等操作，再针对不同类型的数据实现不同的差分隐私机制，从而生成可以进行发布的数据。由此，一方面用户数据可以得到有力的隐私保证；另一方面，可以通过降低隐私算法敏感度来提高数据可用性，从而能提高统计查询和分类分析等任务的可用性。

本发明所述方法在平台构建及其实施过程中，还可以采用如下的系统结构，包括：数据处理单元、模型扰动单元和统计分析单元，其中：

数据处理单元，用于中心服务器对用户数据进行整合、分类、预处理，将数据按特征分类，分成标识特征、准标识符特征和敏感特征；

模型扰动单元，用于整合机器学习中的相关模型与差分隐私协同发挥作用，其中对输入数据进行条件特征选择，选出满足阈值要求的特征数据进行微聚集操作，微聚集时对不同类型的数据分开处理，并分别对不同数据进行扰动，实现差分隐私拉普拉斯机制或指数机制；

统计分析单元，根据模型扰动单元生成可以进行发布的数据，可用于统计计数查询和分类分析。

Claims

1.一种效用增强的条件特征选择差分隐私数据发布方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的效用增强的条件特征选择差分隐私数据发布方法，其特征在于：步骤S2中，提取类别数据的特征域后将特征中的特征取值映射到本体知识中(WordNet2.1)，映射得出一个最小层级结构H_w；

对于特征域的提取，包括对于每个分类特征，通过本体来捕获和建模的特征域，用于衡量两个概念之间的语义相似性；每个特征域的本体包括从现有的知识来源中提取出来,也包括通过对特征域中的概念进行泛化和分类结构化来创建本体。

3.根据权利要求1所述的效用增强的条件特征选择差分隐私数据发布方法，其特征在于：在步骤(S3)中，准标识符特征与敏感特征之间的条件互信息计算公式和阈值设置条件包括如下步骤：

S31、假设在给定数据集D中特征A_y(y∈{1,…,d})的值时，由其他准标识符特征A_m(m∈{1,…,d}\{y})的知识而引起的关于敏感特征A_s(s∈{1,…,d}\{y}\{m})的不确定度的缩减量，则任意特征A_m(m∈{1,…,d}\{y})和A_s在给定特征A_y(y∈{1,…,d})时的条件互信息如下：