CN110990876A - 基于不变后随机响应技术的数据库敏感关联属性脱敏方法 - Google Patents
基于不变后随机响应技术的数据库敏感关联属性脱敏方法 Download PDFInfo
- Publication number
- CN110990876A CN110990876A CN201911277787.5A CN201911277787A CN110990876A CN 110990876 A CN110990876 A CN 110990876A CN 201911277787 A CN201911277787 A CN 201911277787A CN 110990876 A CN110990876 A CN 110990876A
- Authority
- CN
- China
- Prior art keywords
- attribute
- sensitive
- identifier
- quasi
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Databases & Information Systems (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及基于不变后随机响应技术的数据库敏感关联属性脱敏方法,与现有技术相比解决了未充分考虑数据属性相关隐私风险的缺陷。本发明包括以下步骤:原始数据的分析;敏感关联属性的脱敏处理。本发明在考虑数据库中存储数据的准标识符属性与敏感属性存在依赖关系的基础上,对数据库中的敏感数据进行脱敏来保护用户隐私,并增强数据效用。
Description
技术领域
本发明涉及数据库处理技术领域,具体来说是基于不变后随机响应技术的数据库敏感关联属性脱敏方法。
背景技术
随着社会的进步和科技的发展,数据库中存储了海量的数据,人们可以从中提取出很多有价值的信息,但是这些数据所包含的信息也可能泄露出用户的隐私。随机响应(Random Response,RR)技术最初作为消除统计偏差的一种手段,主要思想是利用不确定性来保护敏感信息,而如今广义的随机响应是根据一定的概率将原始值扰动为其他值。在随机响应的基础上,Kooiman等人提出后随机响应(Post Randomization Method,PRAM),在数学上与随机响应类似,都在保护用户隐私信息基础上研究如何提高统计精度。
差分隐私(Differential Privacy)由Dwork提出,相比于之前的隐私保护模型k-匿名以及它的扩展模型,差分隐私不对攻击者的背景做任何假设,能够提供更加强大的隐私保护能力,并且拥有坚实的数学基础,能对隐私保护进行严格的定义并进行量化评估。局部差分隐私(Local Differential Privacy,LDP)相对于传统的差分隐私,继承了中心化差分隐私的组合特性,并被引入到随机响应中,利用随机响应机制来防御隐私攻击。最初研究主要是关于构造随机响应中的不同扰动矩阵,Xiao等人提出多层次扰动的解决方案,避免不同的接受者通过共享数据获取超越权限的隐私信息从而导致隐私泄露问题。
在后随机响应(Post Randomization Method,PRAM)方面,PRAM将用户的属性值按一定的概率随机化以保护个体隐私,而攻击者为查找目标R的敏感信息,可以通过已有信息对数据库中个人数据记录进行连接并重构相关数据。如果这种敏感属性的分布倾斜,个人隐私信息就会被泄露,造成“重构攻击”。Nayak等人针对发布数据的关键分类变量可能导致隐私泄露问题,提出一种新的方法衡量识别风险并通过无偏的后随机化方案来降低隐私泄露的风险。
但是,现有的数据库脱敏方案中,主要考虑了属性相互独立或者完全相关的情况,而忽略了数据库中部分属性相关在重构敏感属性中的隐私风险。
发明内容
本发明的目的是为了解决现有技术中未充分考虑数据属性相关隐私风险的缺陷,提供一种基于不变后随机响应技术的数据库敏感关联属性脱敏方法来解决上述问题。
为了实现上述目的,本发明的技术方案如下:
一种基于不变后随机响应技术的数据库敏感关联属性脱敏方法,包括以下步骤:
原始数据的分析:根据数据库中原始数据的准标识符属性和敏感属性关系强度,分析出数据库中属性间的关联关系;
敏感关联属性的脱敏处理:对敏感属性以及与敏感属性具有强依赖关系的准标识符属性进行脱敏处理。
所述原始数据的分析包括以下步骤:
依次计算原始数据中准标识符属性和敏感属性间的依赖度,当准标识符属性存在数值型属性时,先对准标识符属性进行离散化处理,其依赖度计算公式如下:
准标识符属性表示为{Ai|i=1,…,m},i表示准标识符属性个数,敏感属性表示为{Si|i=1,…,k},k敏感属性个数,将敏感属性的个数设置为1,当敏感属性超过1时,按照准标识符属性的处理方式进行扩充,ds为敏感属性值个数,为敏感属性第z个属性值,Pr为概率符号;
计算出所有准标识符属性和敏感属性间的依赖度,并进行比较;当依赖度大于设定阈值时输出准标识符属性,作为与敏感属性具有强依赖关系的准标识符属性进行扰动处理。
所述的对敏感属性以及与敏感属性具有强依赖关系的准标识符属性的原始数据中二值属性进行脱敏处理包括以下步骤:
对原始数据中敏感属性和需要进行扰动的标识符属性中的属性变量X使用矩阵PB进行扰动,其中,u、v为假设的二值属性的两个值,PB为概率转移矩阵,pu、pv为对应值的转移概率;
用矩阵PB对原始数据进行第一次扰动,其表达式如下:
为了满足ε-局部差分隐私,这里矩阵PB采用阶梯机制对二值属性pu、pv的形式为:pu=pv=eε/(1+eε),ε为差分隐私保护预算,ε越小,隐私保护强度越高;
完成对二值属性的不变后随机扰动。
所述的对敏感属性以及与敏感属性具有强依赖关系的准标识符属性的原始数据中多值属性进行脱敏处理包括以下步骤:
构造扰动矩阵Pm;
对多值属性变量,dx>2,设其扰动矩阵为Pm
对敏感属性和需要进行扰动的标识符属性的原始数据集遍历数据,进行第一次扰动:
计算第二次扰动概率,
本发明的基于不变后随机响应技术的数据库敏感关联属性脱敏方法,与现有技术相比在考虑数据库中存储数据的准标识符(QI)属性与敏感(SA)属性存在依赖关系的基础上,对数据库中的敏感数据进行脱敏来保护用户隐私,并增强数据效用。
本发明在掌握数据库中数据的敏感属性与准标识符属性依赖关系的基础上有针对性的扰动,节约了成本;相对与一般后随机扰动算法,不变后随机扰动算法根据数据库中敏感属性与准标识符属性的关联程度越来越小,扰动算法的执行时间也越来越短,提高了运行效率;在相同的隐私保护程度下,不变后随机响应具有比传统后随机响应更小的KL-散度,数据效用更好,同时属性个数的增加对KL-散度的影响很小,采用不变后随机响应可以取得更高的隐私保护程度。
附图说明
图1为本发明的方法顺序图;
图2为本发明的数据库敏感属性脱敏框架图。
具体实施方式
为使对本发明的结构特征及所达成的功效有更进一步的了解与认识,用以较佳的实施例及附图配合详细的说明,说明如下:
如图1所示,本发明所述的基于不变后随机响应技术的数据库敏感关联属性脱敏方法,包括以下步骤:
第一步,原始数据的分析:根据数据库中原始数据的准标识符(QI)属性和敏感(SA)属性关系强度,分析出数据库中属性间的关联关系。在脱敏的选择方面,按照QI属性与SA属性的依赖度对QI属性进行划分,选取SA属性与具有强依赖关系的QI属性进行扰动,依赖度以属性间的平均互信息计算。其具体步骤如下:
(1)依次计算原始数据中准标识符属性和敏感属性间的依赖度,当准标识符属性存在数值型属性时,先对准标识符属性进行离散化处理,其依赖度计算公式如下:
准标识符属性属性表示为{Ai|i=1,…,m},i表示准标识符属性个数,敏感属性表示为{Si|i=1,…,k},k敏感属性个数,将敏感属性的个数设置为1,ds为敏感属性值个数,为敏感属性第z个属性值,Pr为概率符号。
(2)计算出所有准标识符属性和敏感属性间的依赖度,并进行比较;当依赖度大于设定阈值时输出准标识符属性(与敏感属性具有强依赖关系)进行扰动。
如图2所示,以此为例。当用户对数据库提出查询请求时,数据库分析查询请求,进行计算分析,当查询属性不为敏感属性且与敏感属性没有较强关联时,直接返回查询结果,当查询属性为敏感属性或者与敏感属性具有较强关联时,进行脱敏处理。为了验证数据脱敏,计算效率以及数据效用性,对employee数据库进行脱敏测试,选择emp_no,dept_no,first_name,birth_date,gender,salary,title等属性,其中salary属性作为敏感属性,其余属性作为准标识符属性。
步骤1.首先输入数据D{QI,SA},设置区间划分的数目Ci。
步骤3.计算QI与SA属性间所有的依赖度,公式如下:
步骤4.相互比较,根据QI属性与SA属性之间的依赖度对原始数据进行清理,返回超过设置阈值依赖度的QI属性,其中emp_no属性与salary属性有强依赖关系,其余QI属性与salary属性的关联较弱。
第二步,敏感关联属性的脱敏处理:对敏感属性、需要进行扰动的标识符属性(与敏感属性具有强依赖关系)的原始数据中二值属性、多值属性分别进行扰动脱敏处理。
其中对敏感属性、需要进行扰动的标识符属性(与敏感属性具有强依赖关系)的原始数据中二值属性进行扰动脱敏处理包括以下步骤:
(1)对原始数据中敏感属性和需要进行扰动的标识符属性中的属性变量X使用矩阵PB进行扰动,其中,u、v为假设的二值属性的两个值,PB为概率转移矩阵,pu、pv为对应值的转移概率;
用矩阵PB对原始数据进行第一次扰动,其表达式如下:
为了满足ε-局部差分隐私,这里矩阵PB采用阶梯机制对二值属性pu、pv的形式为:pu=pv=eε/(1+eε),ε为差分隐私保护预算,ε越小,隐私保护强度越高。
完成对二值属性的不变后随机扰动。
其中,对敏感属性和需要进行扰动的标识符属性(与敏感属性具有强依赖关系)的原始数据中的多值属性进行扰动脱敏处理包括以下步骤:
(1)构造扰动矩阵Pm;
(2)对敏感属性和需要进行扰动的标识符属性的原始数据集遍历数据,进行第一次扰动:
(3)计算第二次扰动概率,
在属性关系对数据效用影响方面,对敏感属性salary与具有强依赖关系的准标识符属性emp_no组合、salary与随机选取的准标识符title以及salary与多个准标识符属性emp_no,title,dept_no组合三种情况,分别使用未扰动,PRAM和不变PRAM三种方法,采用scikit-learn开源库中的决策树算法验证标准可靠性。
三种情况下,未扰动的原始数据决策树分类的准确度最高,具有强依赖关系的属性组合有更好的分类准确度,而多个属性组合的准确度较低。
将隐私保护参数ε取0.1,0.2,…,0.9,salary属性在不同隐私保护参数下,不变PRAM的KL-散度与期望比均低于PRAM,其中KL-散度用来比较不同离散变量之间的概率分布差异。
在算法执行时间方面分别取不同的ε对数据进行扰动,另ε=0.1,0.2,0.3,0.4,0.5,0.9,1,1.5,2,随ε的增大执行时间从4.851逐渐降至4.826,脱敏强度越低,算法运行时间越短。
在数据量增长时算法的稳定性方面,分别在数据库中随机抽取1000,3000,…,12000条数据来测试数据中属性的KL-散度。
首先选取敏感属性salary进行独立扰动PRAM(ε=0.3)时,KL-散度比率值维持在1.3左右,而Invariant-PRAM(ε=0.3)的KL-散度比率值维持在0.1-0之间。
再选择与salary具有强依赖关系的准标识符emp_no属性一起扰动,PRAM(ε=0.3)时,KL-散度比率值维持在0.4左右,而Invariant-PRAM(ε=0.3)的KL-散度随数据量增长均低于PRAM,维持在0.39左右。
原始数据与脱敏数据之间距离越小,它们之间的差异越小,脱敏后数据效用越好,则不变PRAM可以更有效的保留数据效用。
数据量的变化以及属性个数的增加对KL-散度影响很小。
综上所述,本发明提出了一种基于不变后随机响应的数据库敏感关联属性脱敏方法,解决了准标识符属性与敏感属性部分相关问题所导致数据库隐私泄露以及数据效用降低、计算复杂度过大等问题。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。
Claims (4)
1.一种基于不变后随机响应技术的数据库敏感关联属性脱敏方法,其特征在于,包括以下步骤:
11)原始数据的分析:根据数据库中原始数据的准标识符属性和敏感属性关系强度,分析出数据库中属性间的关联关系;
12)敏感关联属性的脱敏处理:对敏感属性以及与敏感属性具有强依赖关系的准标识符属性进行脱敏处理。
2.根据权利要求1所述的基于不变后随机响应技术的数据库敏感关联属性脱敏方法,其特征在于,所述原始数据的分析包括以下步骤:
21)依次计算原始数据中准标识符属性和敏感属性间的依赖度,当准标识符属性存在数值型属性时,先对准标识符属性进行离散化处理,其依赖度计算公式如下:
准标识符属性表示为{Ai|i=1,…,m},i表示准标识符属性个数,敏感属性表示为{Si|i=1,…,k},k敏感属性个数,将敏感属性的个数设置为1,当敏感属性超过1时,按照准标识符属性的处理方式进行扩充,ds为敏感属性值个数,为敏感属性第z个属性值,Pr为概率符号;
22)计算出所有准标识符属性和敏感属性间的依赖度,并进行比较;当依赖度大于设定阈值时输出准标识符属性,作为与敏感属性具有强依赖关系的准标识符属性进行扰动处理。
3.根据权利要求1所述的基于不变后随机响应技术的数据库敏感关联属性脱敏方法,其特征在于,所述的对敏感属性以及与敏感属性具有强依赖关系的准标识符属性的原始数据中二值属性进行脱敏处理包括以下步骤:
31)对原始数据中敏感属性和需要进行扰动的标识符属性中的属性变量X使用矩阵PB进行扰动,其中,u、v为假设的二值属性的两个值,PB为概率转移矩阵,pu、pv为对应值的转移概率;
用矩阵PB对原始数据进行第一次扰动,其表达式如下:
为了满足ε-局部差分隐私,这里矩阵PB采用阶梯机制对二值属性pu、pv的形式为:pu=pv=eε/(1+eε),ε为差分隐私保护预算,ε越小,隐私保护强度越高;
完成对二值属性的不变后随机扰动。
4.根据权利要求1所述的基于不变后随机响应技术的数据库敏感关联属性脱敏方法,其特征在于,所述的对敏感属性以及与敏感属性具有强依赖关系的准标识符属性的原始数据中多值属性进行脱敏处理包括以下步骤:
41)构造扰动矩阵Pm;
对多值属性变量,dx>2,设其扰动矩阵为Pm
42)对敏感属性和需要进行扰动的标识符属性的原始数据集遍历数据,进行第一次扰动:
43)计算第二次扰动概率,
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911277787.5A CN110990876A (zh) | 2019-12-12 | 2019-12-12 | 基于不变后随机响应技术的数据库敏感关联属性脱敏方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911277787.5A CN110990876A (zh) | 2019-12-12 | 2019-12-12 | 基于不变后随机响应技术的数据库敏感关联属性脱敏方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110990876A true CN110990876A (zh) | 2020-04-10 |
Family
ID=70092994
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911277787.5A Pending CN110990876A (zh) | 2019-12-12 | 2019-12-12 | 基于不变后随机响应技术的数据库敏感关联属性脱敏方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110990876A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022107284A1 (ja) * | 2020-11-19 | 2022-05-27 | 日本電信電話株式会社 | 秘匿化装置、秘匿化方法及びプログラム |
-
2019
- 2019-12-12 CN CN201911277787.5A patent/CN110990876A/zh active Pending
Non-Patent Citations (1)
Title |
---|
杨高明等: "局部差分隐私约束的关联属性不变后随机响应扰动", 《电子学报》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022107284A1 (ja) * | 2020-11-19 | 2022-05-27 | 日本電信電話株式会社 | 秘匿化装置、秘匿化方法及びプログラム |
JP7509232B2 (ja) | 2020-11-19 | 2024-07-02 | 日本電信電話株式会社 | 秘匿化装置、秘匿化方法及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Javadpour et al. | Feature selection and intrusion detection in cloud environment based on machine learning algorithms | |
O'Neill et al. | Common subtrees in related problems: A novel transfer learning approach for genetic programming | |
CN111143838B (zh) | 数据库用户异常行为检测方法 | |
US8346774B1 (en) | Protecting network entity data while preserving network properties | |
CN115357941B (zh) | 一种基于生成式人工智能的去隐私方法和系统 | |
Xia et al. | Enhancing backdoor attacks with multi-level mmd regularization | |
CN112052891A (zh) | 机器行为识别方法、装置、设备及计算机可读存储介质 | |
Gambs et al. | Reconstruction attack through classifier analysis | |
CN110990876A (zh) | 基于不变后随机响应技术的数据库敏感关联属性脱敏方法 | |
CN112822004B (zh) | 一种基于信念网络的靶向型隐私保护数据发布方法 | |
Sahingoz et al. | Dephides: Deep learning based phishing detection system | |
CN110290101B (zh) | 智能电网环境中基于深度信任网络的关联攻击行为识别方法 | |
CN113392399A (zh) | 一种恶意软件分类方法、装置、设备及介质 | |
AL-Maliki et al. | Comparison study for NLP using machine learning techniques to detecting SQL injection vulnerabilities | |
Sulayman et al. | Designing security user profiles via anomaly detection for user authentication | |
WO2021243534A1 (zh) | 一种行为控制方法及装置、存储介质 | |
Xu | The application of machine learning in Bitcoin ransomware family prediction | |
Mozhaiev et al. | Development of an Information Model for the Personality’s Social Portrait Formation Using OSINT Technology | |
KR102405799B1 (ko) | 사이버 공간에서 실시간 공격 탐지를 위한 시간에 따른 지속적인 적응형 학습을 제공하는 방법 및 시스템 | |
Bhat et al. | A privacy preserved data mining approach based on k-partite graph theory | |
CN113190841A (zh) | 一种使用差分隐私技术防御图数据攻击的方法 | |
CN113259369A (zh) | 一种基于机器学习成员推断攻击的数据集认证方法及系统 | |
Lin et al. | Statistical Information Recovery from Multivariate Noise-Multiplied Data, a Computational Approach. | |
Chareka et al. | A study of fitness functions for data classification using grammatical evolution | |
Lin | A computational Bayesian approach for estimating density functions based on noise-multiplied data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200410 |