CN110990876A

CN110990876A - 基于不变后随机响应技术的数据库敏感关联属性脱敏方法

Info

Publication number: CN110990876A
Application number: CN201911277787.5A
Authority: CN
Inventors: 杨高明; 裴成飞; 方贤进; 朱海明
Original assignee: Anhui University of Science and Technology
Current assignee: Anhui University of Science and Technology
Priority date: 2019-12-12
Filing date: 2019-12-12
Publication date: 2020-04-10

Abstract

本发明涉及基于不变后随机响应技术的数据库敏感关联属性脱敏方法，与现有技术相比解决了未充分考虑数据属性相关隐私风险的缺陷。本发明包括以下步骤：原始数据的分析；敏感关联属性的脱敏处理。本发明在考虑数据库中存储数据的准标识符属性与敏感属性存在依赖关系的基础上，对数据库中的敏感数据进行脱敏来保护用户隐私，并增强数据效用。

Description

基于不变后随机响应技术的数据库敏感关联属性脱敏方法

技术领域

本发明涉及数据库处理技术领域，具体来说是基于不变后随机响应技术的数据库敏感关联属性脱敏方法。

背景技术

随着社会的进步和科技的发展，数据库中存储了海量的数据，人们可以从中提取出很多有价值的信息，但是这些数据所包含的信息也可能泄露出用户的隐私。随机响应(Random Response，RR)技术最初作为消除统计偏差的一种手段，主要思想是利用不确定性来保护敏感信息，而如今广义的随机响应是根据一定的概率将原始值扰动为其他值。在随机响应的基础上，Kooiman等人提出后随机响应(Post Randomization Method，PRAM)，在数学上与随机响应类似，都在保护用户隐私信息基础上研究如何提高统计精度。

差分隐私(Differential Privacy)由Dwork提出，相比于之前的隐私保护模型k-匿名以及它的扩展模型，差分隐私不对攻击者的背景做任何假设，能够提供更加强大的隐私保护能力，并且拥有坚实的数学基础，能对隐私保护进行严格的定义并进行量化评估。局部差分隐私(Local Differential Privacy,LDP)相对于传统的差分隐私，继承了中心化差分隐私的组合特性，并被引入到随机响应中，利用随机响应机制来防御隐私攻击。最初研究主要是关于构造随机响应中的不同扰动矩阵，Xiao等人提出多层次扰动的解决方案，避免不同的接受者通过共享数据获取超越权限的隐私信息从而导致隐私泄露问题。

在后随机响应(Post Randomization Method，PRAM)方面，PRAM将用户的属性值按一定的概率随机化以保护个体隐私，而攻击者为查找目标R的敏感信息，可以通过已有信息对数据库中个人数据记录进行连接并重构相关数据。如果这种敏感属性的分布倾斜，个人隐私信息就会被泄露，造成“重构攻击”。Nayak等人针对发布数据的关键分类变量可能导致隐私泄露问题，提出一种新的方法衡量识别风险并通过无偏的后随机化方案来降低隐私泄露的风险。

但是，现有的数据库脱敏方案中，主要考虑了属性相互独立或者完全相关的情况，而忽略了数据库中部分属性相关在重构敏感属性中的隐私风险。

发明内容

本发明的目的是为了解决现有技术中未充分考虑数据属性相关隐私风险的缺陷，提供一种基于不变后随机响应技术的数据库敏感关联属性脱敏方法来解决上述问题。

为了实现上述目的，本发明的技术方案如下：

一种基于不变后随机响应技术的数据库敏感关联属性脱敏方法，包括以下步骤：

原始数据的分析：根据数据库中原始数据的准标识符属性和敏感属性关系强度，分析出数据库中属性间的关联关系；

敏感关联属性的脱敏处理：对敏感属性以及与敏感属性具有强依赖关系的准标识符属性进行脱敏处理。

所述原始数据的分析包括以下步骤：

依次计算原始数据中准标识符属性和敏感属性间的依赖度，当准标识符属性存在数值型属性时，先对准标识符属性进行离散化处理，其依赖度计算公式如下：

其中

为A_i属性值的个数，

为A_i属性的第z个属性值；

准标识符属性表示为{A_i|i＝1,…,m}，i表示准标识符属性个数，敏感属性表示为{S_i|i＝1,…,k}，k敏感属性个数，将敏感属性的个数设置为1，当敏感属性超过1时，按照准标识符属性的处理方式进行扩充，d_s为敏感属性值个数，

为敏感属性第z个属性值，Pr为概率符号；

计算出所有准标识符属性和敏感属性间的依赖度，并进行比较；当依赖度大于设定阈值时输出准标识符属性，作为与敏感属性具有强依赖关系的准标识符属性进行扰动处理。

所述的对敏感属性以及与敏感属性具有强依赖关系的准标识符属性的原始数据中二值属性进行脱敏处理包括以下步骤：

对原始数据中敏感属性和需要进行扰动的标识符属性中的属性变量X使用矩阵P_B进行扰动，其中，u、v为假设的二值属性的两个值，P_B为概率转移矩阵，p_u、p_v为对应值的转移概率；

用矩阵P_B对原始数据进行第一次扰动，其表达式如下：

为了满足ε-局部差分隐私，这里矩阵PB采用阶梯机制对二值属性p_u、p_v的形式为：p_u＝p_v＝e^ε/(1+e^ε)，ε为差分隐私保护预算，ε越小，隐私保护强度越高；

结合扰动矩阵P_B的逆，计算对原始数据X的估计值

其计算公式如下：

属性变量

对应的原始数据为u的概率

为：

根据概率分布构造出第二次扰动需要的转移概率矩阵P，再将P应用于第一次扰动后的结果

则将P应用于第一次扰动后结果为：

完成对二值属性的不变后随机扰动。

所述的对敏感属性以及与敏感属性具有强依赖关系的准标识符属性的原始数据中多值属性进行脱敏处理包括以下步骤：

构造扰动矩阵P_m；

对多值属性变量，d_x>2，设其扰动矩阵为P_m

d_x为属性值个数；

对敏感属性和需要进行扰动的标识符属性的原始数据集遍历数据，进行第一次扰动：

为第一次扰动概率,

为扰动后的数据,原数据保持不变的概率为e^ε/(d_x-1+e^ε)，到其他属性值得概率为1/(d_x-1+e^ε)，其他属性共有d_x-1个值，两概率之和刚好为1；

令

i＝1,2,…,d_x,带入所设得P_m中得到第一次扰动矩阵

计算第二次扰动概率，

用

表示多值属性变量X原始值为

的概率：

为属性x的j个值,

为原始数据X的估计值，

为第一次扰动后的数据，

为第二次扰动后的数据；

由第二次扰动概率构造得到转移概率矩阵P_*；P_*由

元素构成；

进行第二次扰动，完成不变后随机扰动

有益效果

本发明的基于不变后随机响应技术的数据库敏感关联属性脱敏方法，与现有技术相比在考虑数据库中存储数据的准标识符(QI)属性与敏感(SA)属性存在依赖关系的基础上，对数据库中的敏感数据进行脱敏来保护用户隐私，并增强数据效用。

本发明在掌握数据库中数据的敏感属性与准标识符属性依赖关系的基础上有针对性的扰动，节约了成本；相对与一般后随机扰动算法，不变后随机扰动算法根据数据库中敏感属性与准标识符属性的关联程度越来越小，扰动算法的执行时间也越来越短，提高了运行效率；在相同的隐私保护程度下，不变后随机响应具有比传统后随机响应更小的KL-散度，数据效用更好，同时属性个数的增加对KL-散度的影响很小，采用不变后随机响应可以取得更高的隐私保护程度。

附图说明

图1为本发明的方法顺序图；

图2为本发明的数据库敏感属性脱敏框架图。

具体实施方式

为使对本发明的结构特征及所达成的功效有更进一步的了解与认识，用以较佳的实施例及附图配合详细的说明，说明如下：

如图1所示，本发明所述的基于不变后随机响应技术的数据库敏感关联属性脱敏方法，包括以下步骤：

第一步，原始数据的分析：根据数据库中原始数据的准标识符(QI)属性和敏感(SA)属性关系强度，分析出数据库中属性间的关联关系。在脱敏的选择方面，按照QI属性与SA属性的依赖度对QI属性进行划分，选取SA属性与具有强依赖关系的QI属性进行扰动，依赖度以属性间的平均互信息计算。其具体步骤如下：

(1)依次计算原始数据中准标识符属性和敏感属性间的依赖度，当准标识符属性存在数值型属性时，先对准标识符属性进行离散化处理，其依赖度计算公式如下：

其中

为A_i属性值的个数，

为A_i属性的第z个属性值；

准标识符属性属性表示为{A_i|i＝1,…,m}，i表示准标识符属性个数，敏感属性表示为{S_i|i＝1,…,k}，k敏感属性个数，将敏感属性的个数设置为1，d_s为敏感属性值个数，

为敏感属性第z个属性值，Pr为概率符号。

(2)计算出所有准标识符属性和敏感属性间的依赖度，并进行比较；当依赖度大于设定阈值时输出准标识符属性(与敏感属性具有强依赖关系)进行扰动。

如图2所示，以此为例。当用户对数据库提出查询请求时，数据库分析查询请求，进行计算分析，当查询属性不为敏感属性且与敏感属性没有较强关联时，直接返回查询结果，当查询属性为敏感属性或者与敏感属性具有较强关联时，进行脱敏处理。为了验证数据脱敏，计算效率以及数据效用性，对employee数据库进行脱敏测试，选择emp_no，dept_no，first_name，birth_date，gender，salary，title等属性，其中salary属性作为敏感属性，其余属性作为准标识符属性。

步骤1.首先输入数据D{QI,SA},设置区间划分的数目C_i。

步骤2.统计数据D的属性值

数目，计算相应频率，如果为数值属性，对其离散化。

步骤3.计算QI与SA属性间所有的依赖度，公式如下：

其中

为准标识符属性A_i的值域，d_s为敏感属性S的值域。

步骤4.相互比较，根据QI属性与SA属性之间的依赖度对原始数据进行清理，返回超过设置阈值依赖度的QI属性，其中emp_no属性与salary属性有强依赖关系，其余QI属性与salary属性的关联较弱。

第二步，敏感关联属性的脱敏处理：对敏感属性、需要进行扰动的标识符属性(与敏感属性具有强依赖关系)的原始数据中二值属性、多值属性分别进行扰动脱敏处理。

其中对敏感属性、需要进行扰动的标识符属性(与敏感属性具有强依赖关系)的原始数据中二值属性进行扰动脱敏处理包括以下步骤：

(1)对原始数据中敏感属性和需要进行扰动的标识符属性中的属性变量X使用矩阵P_B进行扰动，其中，u、v为假设的二值属性的两个值，P_B为概率转移矩阵，p_u、p_v为对应值的转移概率；

用矩阵P_B对原始数据进行第一次扰动，其表达式如下：

为了满足ε-局部差分隐私，这里矩阵PB采用阶梯机制对二值属性p_u、p_v的形式为：p_u＝p_v＝e^ε/(1+e^ε)，ε为差分隐私保护预算，ε越小，隐私保护强度越高。

(2)结合扰动矩阵P_B的逆，计算对原始数据X的估计值

其计算公式如下：

属性变量

对应的原始数据为u的概率

为：

(3)根据概率分布构造出第二次扰动需要的转移概率矩阵P，再将P应用于第一次扰动后的结果

则将P应用于第一次扰动后结果为：

完成对二值属性的不变后随机扰动。

其中，对敏感属性和需要进行扰动的标识符属性(与敏感属性具有强依赖关系)的原始数据中的多值属性进行扰动脱敏处理包括以下步骤：

(1)构造扰动矩阵P_m；

对多值属性变量，d_x>2，设其扰动矩阵为

d_x为属性值个数；

(2)对敏感属性和需要进行扰动的标识符属性的原始数据集遍历数据，进行第一次扰动：

为第一次扰动概率,

令

i＝1,2,…,d_x,带入所设得P_m中得到第一次扰动矩阵

(3)计算第二次扰动概率，

用

表示多值属性变量X原始值为

的概率：

为属性x的j个值,

为原始数据X的估计值，

为第一次扰动后的数据，

为第二次扰动后的数据；

(4)由第二次扰动概率构造得到转移概率矩阵P_*；P_*由

元素构成；

(5)进行第二次扰动，完成不变后随机扰动

在属性关系对数据效用影响方面，对敏感属性salary与具有强依赖关系的准标识符属性emp_no组合、salary与随机选取的准标识符title以及salary与多个准标识符属性emp_no，title，dept_no组合三种情况，分别使用未扰动，PRAM和不变PRAM三种方法，采用scikit-learn开源库中的决策树算法验证标准可靠性。

三种情况下，未扰动的原始数据决策树分类的准确度最高，具有强依赖关系的属性组合有更好的分类准确度，而多个属性组合的准确度较低。

将隐私保护参数ε取0.1,0.2,…,0.9，salary属性在不同隐私保护参数下，不变PRAM的KL-散度与期望比均低于PRAM,其中KL-散度用来比较不同离散变量之间的概率分布差异。

在算法执行时间方面分别取不同的ε对数据进行扰动，另ε＝0.1，0.2，0.3，0.4，0.5，0.9，1，1.5，2，随ε的增大执行时间从4.851逐渐降至4.826，脱敏强度越低，算法运行时间越短。

在数据量增长时算法的稳定性方面，分别在数据库中随机抽取1000,3000，…，12000条数据来测试数据中属性的KL-散度。

首先选取敏感属性salary进行独立扰动PRAM(ε＝0.3)时，KL-散度比率值维持在1.3左右，而Invariant-PRAM(ε＝0.3)的KL-散度比率值维持在0.1-0之间。

再选择与salary具有强依赖关系的准标识符emp_no属性一起扰动，PRAM(ε＝0.3)时，KL-散度比率值维持在0.4左右，而Invariant-PRAM(ε＝0.3)的KL-散度随数据量增长均低于PRAM，维持在0.39左右。

原始数据与脱敏数据之间距离越小，它们之间的差异越小，脱敏后数据效用越好，则不变PRAM可以更有效的保留数据效用。

数据量的变化以及属性个数的增加对KL-散度影响很小。

综上所述，本发明提出了一种基于不变后随机响应的数据库敏感关联属性脱敏方法，解决了准标识符属性与敏感属性部分相关问题所导致数据库隐私泄露以及数据效用降低、计算复杂度过大等问题。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是本发明的原理，在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。