CN110309671B

CN110309671B - 基于随机应答技术的通用数据发布隐私保护方法

Info

Publication number: CN110309671B
Application number: CN201910558380.3A
Authority: CN
Inventors: 周水庚; 刘朝斌; 陈世熹; 关佶红
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2019-06-26
Filing date: 2019-06-26
Publication date: 2022-12-20
Anticipated expiration: 2039-06-26
Also published as: CN110309671A

Abstract

本发明属于隐私保护技术领域，具体为一种基于随机应答技术的通用数据发布隐私保护方法。本发明基于随机应答技术，利用矩阵分解方法与克罗内克积性质，将重构无偏估计结果的计算复杂度从指数级增长降为线性增长，实现无偏估计结果的误差最小化，并允许为每个属性单独设置隐私保护参数，有效提高计算效率、数据可用性和应用灵活性。本发明方法支持单敏感属性和多敏感属性的数据发布，所述敏感属性包括布尔型属性、分类型属性和数值型属性；本发明能够为医疗、金融、生物信息和交通等领域的科研与管理提供高效、灵活的数据发布隐私保护机制，有助于在数据发布过程中保护数据隐私的同时，保留发布数据有用信息，促进数据的共享共用。

Description

基于随机应答技术的通用数据发布隐私保护方法

技术领域

本发明属于隐私保护技术领域，具体涉及数据发布的隐私保护方法。

背景技术

数据发布应用中，数据发布者存在两个主要关切：一个是保护个体敏感数据隐私不被泄露，另一个保留原始数据中存在的统计规律，以确保发布数据的可用性。隐私保护技术是同时实现这两个主要关切的关键保证。如医院拥有大量病人的病历数据，这些数据需要提供给医生、科研工作者及社会管理人员，用于找出数据中的规律特点，为研究疾病治疗或预防方法提供服务。但是，直接发布这些数据，将会导致病人疾病等隐私信息的泄露。因此，需要通过隐私保护技术对原始数据或查询结果进行转换处理。数据的转换处理包括输入扰动和输出扰动两种基本方法。输入扰动方法主要对原始数据集进行调整处理，并基于调整处理后的数据集进行查询处理；输出扰动方法主要基于原始数据集计算查询结果，然后对查询结果进行调整处理或拒绝可能泄露隐私的查询请求。本发明主要聚焦输入扰动方法研究。

泛化技术和随机应答技术是输入扰动方法的代表性技术。泛化技术主要通过分组方式，让某一个体的敏感属性值无法与同组内其他个体的敏感属性值进行区分，以达到隐私保护的目的，典型的泛化技术方法有k-anonymity方法、l-diversity方法、t-closeness方法和Anatomy方法。但是，泛化技术的数据发布形式不标准，数据可用性较差。随机应答技术主要按照一定策略对原始数据进行随机扰动，在保证发布数据可用性的同时，让攻击者无法知晓目标个体的敏感属性值。随机应答技术方法对原始数据进行随机扰动后发布，实现攻击者不能以高于预先设定的概率推断出原始数据中是否包含目标个体的敏感数据，同时发布数据中能够有效保留原有的数据统计规律，以保证数据可用性。常用的随机应答技术扰动方法有Retention Replacement扰动方法和Flipping扰动方法。与泛化技术相比，随机应答技术的数据发布形式较为统一，能够提供更好的隐私保护强度，但现有基于随机应答技术的方法还存在隐私参数设置不够灵活、计算复杂度较高等问题。

发明内容

本发明的目的在于提出了一种隐私参数设置灵活、计算复杂度低的通用的数据发布隐私保护方法。

本发明提供的通用的数据发布隐私保护方法，是基于随机应答技术的。该方法支持单敏感属性和多敏感属性的数据发布，所述敏感属性包括布尔型属性、分类型属性和数值型属性；允许为每个属性单独设置隐私参数，其无偏估计结果的重构时间与查询维度(即查询涉及的敏感属性数量)呈线性相关，且能够实现无偏估计结果的误差最小化。

本发明提出的通用数据发布隐私保护方法，给出了各类型属性数据的具体扰动方法；尤其针对分类型属性数据的Flipping扰动方法在结果重构方面的不足，提出了Flipping扰动的无偏估计结果重构新方法，有效减小估计误差。

本发明提出的通用数据发布隐私保护方法，包括如下几个方面：

(1)将每一个敏感属性进行独立处理，包括数据扰动和数据重构；

(2)基于矩阵分解方法与克罗内克积性质，将求解向量中所有元素值转化为只求解其中一个元素值，实现无偏估计结果的重构时间与查询维度呈线性相关，有效化解传统方法呈指数级增长的难题；

(3)将无偏估计结果误差最小化作为求解重构矩阵的约束条件，以实现重构结果误差最小化的目标；

(4)给出一种新的针对Flipping扰动的无偏估计结果重构方法，在进行无偏估计结果重构时，考虑所有属性维度，而非传统方法中只考虑单一维度，有效减小估计误差。

本发明提出的通用的数据发布隐私保护方法，适用于各类敏感属性的数据扰动与结果重构；具体步骤如下：

设原始数据集T拥有d个属性，A为T的属性集，第i个属性拥有n_i个不同的属性值，计数查询

表示对于每一个k，查询T中同时满足第a_k个属性值

的记录数量。因此，计数查询

可能涉及属性集A的任意非空属性子集。不失一般性，下面只讨论涉及A中所有属性的计数查询情况(即属性数量为d)。

随机应答技术对数据的扰动是通过一定的概率分布来实现的。记原始属性值x(1≤x≤n)扰动为y(1≤y≤m)的概率是p_xy，则扰动矩阵P＝(p_ij)_n×m表示一个属性的属性值由n个扰动为m个的概率分布。对原始数据集T扰动后的数据集即为发布数据集，记为T′。下面说明基于原始数据集T的计数统计查询，能够通过在扰动后的数据集T′中进行相应查询并对查询结果进行重构，得到一个实际查询结果(即T中查询得到的结果)的无偏估计，从而在保护个体数据隐私的同时，保留原始数据集的统计规律。

设向量x是基于原始数据集T的计数查询结果向量(即需要估计的目标)，其第k个元素x_k为原始数据集T中

的数量；向量y是基于扰动数据集T′的计数查询结果向量，其第k个元素yk为扰动数据集T′中

的数量，E(·)代表求均值，P为扰动矩阵，则有：

xPE(y)和E(yP^-1)＝x

因此，重构的计数结果向量x′＝yP^-1是向量x的无偏估计，它通过扰动后的计数结果向量y与扰动矩阵P的逆矩阵P^-1相乘得到。为表述方便，本发明记R＝P^-1为与扰动矩阵P相对应的重构矩阵。

易知，求出R即可得出向量x的无偏估计。对于数据集T中第i个属性，通过一个n_i×m_i的扰动矩阵P_i，独立扰动为m_i个不同的属性值。因此，组合的扰动矩阵

决定了记录t∈∏{1,2,...,n_i}扰动为记录t′∈∏{1,2,...,m_i}的概率(

表示克罗内克积)，而根据克罗内克积性质，

是一个与P相对应的组合重构矩阵。

为便于将数据记录与向量、矩阵元素的下标序号对应起来，本发明定义f和f′两个函数，其中函数f将原始记录映射为扰动矩阵的列号，函数f′将扰动记录映射为扰动矩阵的行号。函数f和f′的定义模式相同，下面以f为例给出具体定义，即：f∶{0,1}^d→{1...2^d}

其中t∈{0，1}^d

对于查询∧(t＝q)，向量x′的第f(q)个元素(即：x′_f(q))就是对计数查询真实结果的无偏估计值。因此，只需求解元素x′_f(q)，不用求解整个向量x。

本发明通过求解每个数据记录的无偏估计结果，累加得到最终无偏估计结果，从而实现无偏估计结果的重构时间与查询维度(即查询涉及的敏感属性数量)呈线性相关。x′_f(q)具体计算公式如下：

本发明基于随机应答技术，利用矩阵分解方法与克罗内克积性质，将重构无偏估计结果的计算复杂度从指数级增长降为线性增长，实现无偏估计结果的误差最小化，并允许为每个属性单独设置隐私保护参数，有效提高计算效率、数据可用性和应用灵活性。

本发明能够为医疗、金融、生物信息和交通等领域的科研与管理提供高效、灵活、通用的数据发布隐私保护方法，有助于在数据发布过程中保护数据隐私的同时，保留发布数据有用信息，促进数据的共享共用。

附图说明

图1为相对误差与数据量的关系示意图。

图2为相对误差与分类型敏感属性值数量的关系示意图。

具体实施方式

下面给出本发明方法无偏估计结果重构矩阵求解方法，并给出不同类型属性的数据扰动方法，以对本发明方法的实施过程进行更具体地描述。

一、重构矩阵的计算

当矩阵P为方阵且可逆时，易知R＝P^-1。但是，当矩阵P不是方阵时，如P＝(p_ij)_n×m，需要一定策略与方法来计算重构矩阵R，以实现估计误差最小化。不失一般性，设m>n。

鉴于点查询、区间或子集查询在无偏估计结果的计算方式上是相同的，下面以点查询为例，具体讨论重构矩阵R的计算方法。对于查询t＝q，重构矩阵的选取直接关系到估计误差的大小，为提高查询结果可用性，本文要求计算重构矩阵R时，将估计误差最小化作为约束条件，即：

设原始数据集T中敏感属性取值是均匀分布的，则有：

的计算方法如下：

其中，δ_s表示一个指示变量，当谓语s为真时等于1，否则等于0。

固定q值不变，利用拉格朗日乘子法,将上述估计误差最小化的问题转化为对所有t′均有：

即

其中，λ_t,q(1≤t≤n)是n个拉格朗日乘子。

二、扰动矩阵的计算(对应于不同的数据扰动方法)

本发明提出的通用数据发布隐私保护方法能够适用于各类属性数据，包括布尔型属性、分类型属性和数值型属性数据。前面介绍了本发明特点，下面针对具体属性数据，给出数据扰动方法。

对于布尔型属性数据，扰动方法与经典的Flipping扰动方法相同，即：以概率p保持数据记录t的原始值不变，以概率1-p对数据记录t的原始值进行跳位(即0跳为1或1跳为0)；

对于分类型属性数据，数据扰动方法包括Retention Replacement扰动方法和Flipping扰动方法两大类。

对于数值型属性数据，本发明主要通过将其转换为布尔型属性或分类型属性数据后进行处理。下面具体介绍分类型属性数据的扰动方法。

(一)Retention Replacement扰动方法

设一个分类型敏感属性拥有n个不同的属性值{1,2,...,n}。RetentionReplacement扰动的具体方法为：以概率p保持原始值不变，以概率1-p将原始值替换为其他值，且替换为任一属性值的概率相同。则该扰动方法的扰动矩阵为：

P＝(p_ij)_n×n其中

(二)Flipping扰动方法

Flipping扰动方法是分类型数据的另一类扰动方法，该方法为每一个记录t∈{1,2,...,n}，建立一个位数组t′＝t′[1]t′[2]...t′[n]，其中t′[i]＝1表示t＝i，t′[i]＝0表示t≠i。具体扰动方法为：以概率p保持t′[i]的原始值不变，以概1-p对t′[i]的原始值进行跳位(即0跳为1或1跳为0)。

传统的Flipping扰动单维重构方法仅考虑位数组t′中的一位数据(本发明称之为“Flipping扰动单维重构方法”)，具体方法为：引入虚拟输入v＝δ_t＝q和虚拟输出v′＝t′[q]，值不变概率p₀＝p₁＝p，无偏估计向量x′的第一个元素x′₁为最终的无偏估计结果。

为充分挖掘位数组t′中所有位包含的信息，本发明提出一种“Flipping扰动全维重构方法”。具体为：对于一个查询t∈Q，建立一个虚拟输入v＝δ_t∈Q和虚拟输出v′＝(v′₊,v′_-)，其中v′₊＝∑_t∈Qt′[i]，

则扰动矩阵P为

P＝(p_ij)₂×(|Q|+1)(n-|Q|+1)

其中：

p_f(v),f(v′)表示虚拟输入v扰动为v′的概率，

表示对于拥有i个比特的集合在扰动后有j个比特产生跳位的概率。

三、实验分析

本节主要对上述通用数据发布隐私保护方法进行实验评估，并与现有的一些随机应答和泛化技术方法进行比较。

1、实验度量标准选择

实验过程中，各方法性能比较的度量标准为相对误差。对任一计数查询，其在原始数据集中的实际查询结果为x，数据发布方法基于发布数据集得到的无偏估计结果为x’，则相对误差

2、数据发布方法选择

为评估上述通用数据发布隐私保护方法性能，本实验共选择六种数据发布方法进行评估对比，分别是：Flipping扰动全维重构方法、Retention Replacement扰动方法、Flipping扰动单维重构方法、(c,l)-diversity方法、l-diversity方法和Anatomy方法。其中，前三种方法属于随机应答方法，均基于本发明提出的通用数据发布隐私保护方法来实现；后三种方法属于泛化方法。

3、实验结果

(1)随机应答方法和泛化方法的性能对比

实验基于真实数据集和模拟数据集，通过调整数据集大小，对选择的三种随机应答方法和三种泛化方法性能进行对比。实验过程中，为便于进行两类方法的对比，选择一个属性为敏感属性，每个查询均随机产生，产生规则为：每个查询均包含两个属性值，一个为敏感属性值，另一个为任意其他属性值。图1展示了随着数据集记录数量的变化，各方法估计结果的相对误差情况。从图1中可以看出，本发明提出的基于随机应答技术通用数据发布隐私保护方法明显优于泛化方法，且随着数据集记录数量的变大，相对误差会逐渐变小；

(2)分类型敏感属性值数量对随机应答方法性能的影响

实验选择一个分类型属性为敏感属性，通过调整敏感属性拥有的属性值数量和查询涉及的敏感属性值数量，对三种随机应答方法的性能进行评估。为能够灵活调整敏感属性值的数量，实验基于模拟数据集进行。图2(a)展示了随着敏感属性拥有的属性值数量从2逐次增加到40(每次增加2个)，三种随机应答方法估计结果的相对误差情况，三种方法的相对误差与属性值数量呈近似线性增长关系，其中Retention Replacement扰动方法的相对误差增长速度最快，两种Flipping扰动方法的相对误差增长速度相当，但Flipping扰动全维重构方法略优于Flipping扰动单维重构方法。图2(b)展示了随着子集查询涉及的属性值数量从1逐次增加到最大数量(每次增加1个)，三种随机应答方法估计结果的相对误差情况，三种方法的相对误差与查询涉及的属性值数量呈近似线性减小关系，其中Flipping扰动单维重构方法表现最差，因为该方法重构时仅考虑位向量的单比特位，导致部分同时拥有多个查询属性值的数据记录重复计算；Flipping扰动全维重构方法表现最优。

Claims

1.一种基于随机应答技术的通用数据发布隐私保护方法，其特征在于，支持单敏感属性和多敏感属性的数据发布，所述敏感属性包括布尔型属性、分类型属性和数值型属性；为每个属性单独设置隐私参数，其无偏估计结果的重构时间与查询维度即查询涉及的敏感属性数量呈线性相关，且能够实现无偏估计结果的误差最小化；具体步骤如下：

表示对于每一个k，查询T中同时满足第a_k个属性值

的记录数量；计数查询

涉及属性集A的任意非空属性子集；下面针对A中所有属性的计数查询情况即属性数量为d的情况；

随机应答技术对数据的扰动是通过一定的概率分布来实现的；记原始属性值x(1≤x≤n)扰动为y(1≤y≤m)的概率是p_xy，则扰动矩阵P＝(p_ij)_n×m表示一个属性的属性值由n个扰动为m个的概率分布；对原始数据集T扰动后的数据集即为发布数据集，记为T′；

基于原始数据集T的计数统计查询，能够通过在扰动后的数据集T′中进行相应查询并对查询结果进行重构，得到一个实际查询结果即T中查询得到的结果的无偏估计，从而在保护个体数据隐私的同时，保留原始数据集的统计规律；

设向量x是基于原始数据集T的计数查询结果向量即需要估计的目标，其第k个元素x_k为原始数据集T中

的数量；向量y是基于扰动数据集T′的计数查询结果向量，其第k个元素y_k为扰动数据集T′中

的数量，E(·)代表求均值，P为扰动矩阵，则有：

xP＝E(y)和E(yP^-1)＝x

因此，重构的计数结果向量x′＝yP^-1是向量x的无偏估计，通过扰动后的计数结果向量y与扰动矩阵P的逆矩阵P^-1相乘得到；为表述方便，记R＝P^-1为与扰动矩阵P相对应的重构矩阵；

可见，求出重构矩阵R即可得出向量x的无偏估计；

对于数据集T中第i个属性，通过一个n_i×m_i的扰动矩阵P_i，独立扰动为m_i个不同的属性值；因此，组合的扰动矩阵

决定了记录t∈∏{1,2,...,n_i}扰动为记录t′∈∏{1,2,...,m_i}的概率，

表示克罗内克积，而根据克罗内克积性质，

是一个与P相对应的组合重构矩阵；

为便于将数据记录与向量、矩阵元素的下标序号对应起来，本发明定义f和f′两个函数，其中函数f将原始记录映射为扰动矩阵的列号，函数f′将扰动记录映射为扰动矩阵的行号；函数f和f′的定义模式相同，下面以f为例给出具体定义，即：f∶{0,1}^d→{1...2^d}

其中t∈{0，1}^d

对于查询∧(t＝q)，向量x′的第f(q)个元素(即：x′_f(q))就是对计数查询真实结果的无偏估计值；只需求解元素x′_f(q)；

通过求解每个数据记录的无偏估计结果，累加得到最终无偏估计结果，从而实现无偏估计结果的重构时间与查询维度呈线性相关；x′_f(q)具体计算公式如下：

所述重构矩阵的计算方法如下：

当矩阵P为方阵且可逆时，易知R＝P^-1；

当矩阵P不是方阵时，即P＝(p_ij)_n×m，m>n，鉴于点查询、区间或子集查询在无偏估计结果的计算方式是相同的，下面以点查询为例，给出重构矩阵R的计算方法；

对于查询t＝q，计算重构矩阵R时，将估计误差最小化作为约束条件：

设原始数据集T中敏感属性取值是均匀分布的，则有：

的计算方法如下：

其中，δ_s表示一个指示变量，当谓语s为真时等于1，否则等于0；

即

其中，λ_t，q(1≤t≤n)是n个拉格朗日乘子；

对应于不同数据扰动方法的扰动矩阵的计算方法如下：

(一)Retention Replacement扰动方法

设一个分类型敏感属性拥有n个不同的属性值{1,2,...,n}；Retention Replacement扰动的具体方法为：以概率p保持原始值不变，以概率1-p将原始值替换为其他值，且替换为任一属性值的概率相同；则该扰动方法的扰动矩阵为：

P＝(p_ij)_n×n其中

(二)Flipping扰动方法

Flipping扰动方法为每一个记录t∈{1,2,...,n}，建立一个位数组t′＝t′[1]t′[2]...t′[n]，其中t′[i]＝1表示t＝i，t′[i]＝0表示t≠i；具体扰动方法为：以概率p保持t′[i]的原始值不变，以概1-p对t′[i]的原始值进行跳位；

(1)Flipping扰动单维重构方法，仅考虑位数组t′中的一位数据，具体方法为：引入虚拟输入v＝δ_t＝q和虚拟输出v′＝t′[q]，值不变概率p₀＝p₁＝p，无偏估计向量x′的第一个元素x′₁为最终的无偏估计结果；

(2)Flipping扰动全维重构方法：对于一个查询t∈Q，建立一个虚拟输入v＝δ_t∈Q和虚拟输出v′＝(v′₊,v′_-)，其中v′₊＝∑_t∈Qt′[i]，

则扰动矩阵P为：

P＝(p_ij)_{2×(|Q|+1)(n-|Q|+1})

其中：

p_f(v),f(v′)表示虚拟输入v扰动为v′的概率，

2.根据权利要求1所述的基于随机应答技术的通用数据发布隐私保护方法，其特征在于：

对于布尔型属性数据，扰动方法与经典的Flipping扰动方法相同，即：以概率p保持数据记录t的原始值不变，以概率1-p对数据记录t的原始值进行跳位；

对于分类型属性数据，数据扰动方法包括Retention Replacement扰动方法和Flipping扰动方法两大类；

对于数值型属性数据，主要通过将其转换为布尔型属性或分类型属性数据后进行处理。