CN109670341A - 一种对结构化数据和半结构化数据结合的隐私保护方法 - Google Patents
一种对结构化数据和半结构化数据结合的隐私保护方法 Download PDFInfo
- Publication number
- CN109670341A CN109670341A CN201811642732.5A CN201811642732A CN109670341A CN 109670341 A CN109670341 A CN 109670341A CN 201811642732 A CN201811642732 A CN 201811642732A CN 109670341 A CN109670341 A CN 109670341A
- Authority
- CN
- China
- Prior art keywords
- data
- semi
- characteristic
- structural
- structured
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 13
- 238000012986 modification Methods 0.000 claims abstract description 5
- 230000004048 modification Effects 0.000 claims abstract description 5
- 238000012512 characterization method Methods 0.000 claims description 6
- 238000005315 distribution function Methods 0.000 claims description 3
- 238000004064 recycling Methods 0.000 claims description 2
- 238000011161 development Methods 0.000 abstract description 5
- 238000005516 engineering process Methods 0.000 description 3
- 238000007418 data mining Methods 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6227—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Storage Device Security (AREA)
Abstract
本发明公开了一种对结构化数据和半结构化数据结合的隐私保护方法,包括以下步骤:S1:收集原始数据,形成原始数据集D;并对原始数据进行分类,将原始数据分类成结构化数据和半结构化数据;所述的结构化数据包括数据库;所述的半结构化数据包括json文件;S2:将半结构化数据转化成结构化数据;S3:将S2中转化后的结构化数据使用差分隐私保护算法;S4:公布修改之后满足差分隐私保护算法的结构化数据。本发明实现了对结构化和半结构化相结合的数据的ζ‑差分隐私保护,能更好的适应当下时代的发展趋势,既能满足对隐私的保护,又能满足数据挖掘者的要求,数据的可用性也不会降低太多。
Description
技术领域
本发明属于信息安全领域,更具体地,涉及一种对结构化数据和半结构化数据结合的隐私保护方法。
背景技术
随着电子科技的不断发展,大量的数据以电子的形式存储,网络技术也在不断的进步。近几年,数据挖掘技术逐渐成为热门,在挖掘中,个人的隐私数据更容易泄露。隐私的保护成为了制约数据挖掘更进一步发展的瓶颈之一。
随着时代的发展,结构化的数据已经渐渐不能满足日益增长的数据规模,大量的非结构化数据和半结构数据出现在人们的视野中,非结构化的数据主要包括,图片,声音,视频等,而半结构化数据介于结构化数据和半结构化数据之间存在一定的结构,存在一定的结构,但是结构并不是固定的,相比结构化数据更灵活,相比非结构化数据更容易进行数据的处理。
目前流行的隐私保护算法主要包括k-匿名算法(将需要发布的数据的标识符隐去,对准标识符概化)和差分隐私保护算法(对将要发布的数据或者将要进行的查询添加干扰,达到保护隐私的目的)。
目前的隐私保护算法主要用于结构化数据,很少将隐私保护算法应用在两种数据格式相结合的情况下,出现了灵活性不足的问题。
发明内容
为解决现有的技术缺陷,本发明公开了一种新的对结构化数据和半结构化数据结合的隐私保护方法。本发明实现了对结构化和半结构化相结合的数据的ζ-差分隐私保护,能更好的适应当下时代的发展趋势,既能满足对隐私的保护,又能满足数据挖掘者的要求,数据的可用性也不会降低太多。
为解决上述技术问题,本发明的技术方案如下:
一种对结构化数据和半结构化数据结合的隐私保护方法,包括以下步骤:
S1:收集原始数据,形成原始数据集D;并对原始数据进行分类,将原始数据分类成结构化数据和半结构化数据;所述的结构化数据包括数据库;所述的半结构化数据包括json文件;
S2:将半结构化数据转化成结构化数据;
S3:将S2中转化后的结构化数据使用差分隐私保护算法;
S4:公布修改之后满足差分隐私保护算法的结构化数据,达到保护隐私的目的。
本发明中,首先需要对数据进行分类处理,需要将数据分类成结构化形式存储的数据和半结构化形式存储的数据。对于结构化存储的数据,可以直接使用保护算法进行保护,并对外公开,不会对其中用户的隐私信息造成危害。而对于半结构化形式存储的数据,因为在半结构化数据中,结构与数据相融,难以纳入现有的各种描述框架,整体上具有动态的结构模式,所以没有隐私保护算法能够直接作用在半结构化数据中,需要对半结构化数据进行转化。
在一种优选的方案中,所述的S3包括以下内容:
S3.1:泛化原始数据集D中的每一个数据,泛化是指用笼统的变量代替具体的变量,比如Engineer,Lawyer泛化成Professional,34泛化成(18-65);
S3.2:初始化原始数据集D中每一个特性v从叶子节点到根结点的特征值;
S3.3:对原始数据集D的每一个数据更新对应的隐私预算:
所述的ζ’表示更新后的隐私预算,所述的ζ表示更新前的隐私预算,隐私预算ζ越小则说明保护的程度越大;所述的表示数据表中的第n个特性v;所述的h表示需要特征化的特性v的数量;
S3.4:根据决定选择哪一个值进行分割;
所述的exp()表示以e为底的指数函数;所述的u()表示得分函数;所述的Δu通过下式进行表达:
其中,所述的E和E'表示只差一个数据的兄弟表;
S3.5:对更新后的数据集进行循环,直至完成整个数据集的特征化;
S3.6:对每一组加上噪声所述的Lap()表示拉普拉斯分布函数,所述的C表示特征化之后的特性v。
在一种优选的方案中,S3.5.1:根据每一个特性v的概率选择概率最大的特性v,执行S3.5.2;
S3.5.2:将S3.5.1选择的特性v进行特征化处理,并更新UCuti,所述的UCuti表示数量为h的特性特征化之后的并集;
S3.5.3:根据S3.5.2之后的每一个特性v的概率选择概率最大的特性v,执行S3.5.4;
S3.5.4:更新每个特性v的得分函数u()。
在一种优选的方案中,所述的S2包括以下内容:
通过将json文件转化成python对象,在利用pymysql模块将python对象存储相应的数据库中,实现对半结构化数据转化成结构化数据的操作。
本优选方案中,主要通过python中json模块和pymysql模块,其中json模块的主要作用是实现json对象和python对象之间的相互转化,将json对象转化成python对象使用函数json.dump()和json.dumps()。将python对象转化成json对象使用函数json.load()和json.loads()。Pymysql模块是在python中操作mysql的一个模块,通过该模块,可以操作mysql中的数据库,实现数据库的增删查改,将上述两个模块相结合,即可实现对半结构化数据转化成结构化数据。
与现有技术相比,本发明技术方案的有益效果是:
本发明实现了对结构化和半结构化相结合的数据的ζ-差分隐私保护,能更好的适应当下时代的发展趋势,既能满足对隐私的保护,又能满足数据挖掘者的要求,数据的可用性也不会降低太多。
附图说明
图1为本实施例的流程图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
如图1所示,一种对结构化数据和半结构化数据结合的隐私保护方法,包括以下步骤:
S1:收集原始数据,形成原始数据集D;并对原始数据进行分类,将原始数据分类成结构化数据和半结构化数据;结构化数据包括数据库;半结构化数据包括json文件;
S2:将半结构化数据转化成结构化数据;
json文件的转化过程:通过使用python中json模块和pymysql模块,将json文件转化成python对象,在利用pymysql模块将python对象存储相应的数据库中,实现对半结构化数据转化成结构化数据的操作;
S3:将S2中转化后的结构化数据使用差分隐私保护算法;
S3.1:泛化原始数据集D中的每一个数据,泛化是指用笼统的变量代替具体的变量,比如Engineer,Lawyer泛化成Professional,34泛化成(18-65);
S3.2:初始化原始数据集D中每一个特性v从叶子节点到根结点的特征值;
S3.3:对原始数据集D的每一个数据更新对应的隐私预算:
ζ’表示更新后的隐私预算,ζ表示更新前的隐私预算,隐私预算ζ越小则说明保护的程度越大;表示数据表中的第n个特性v;h表示需要特征化的特性v的数量;
S3.4:根据决定选择哪一个值进行分割;
exp()表示以e为底的指数函数;u()表示得分函数;Δu通过下式进行表达:
其中,E和E'表示只差一个数据的兄弟表;
S3.5:对更新后的数据集进行以下循环,直至完成整个数据集的特征化:
S3.5.1:根据每一个特性v的概率选择概率最大的特性v,执行S3.5.2;
S3.5.2:将S3.5.1选择的特性v进行特征化处理,并更新UCuti,UCuti表示数量为h的特性特征化之后的并集;
S3.5.3:根据S3.5.2之后的每一个特性v的概率选择概率最大的特性v,执行S3.5.4;
S3.5.4:更新每个特性v的得分函数u();
S3.6:对每一组加上噪声Lap()表示拉普拉斯分布函数,C表示特征化之后的特性v;
S4:公布修改之后满足差分隐私保护算法的结构化数据,达到保护隐私的目的。
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (4)
1.一种对结构化数据和半结构化数据结合的隐私保护方法,其特征在于,包括以下步骤:
S1:收集原始数据,形成原始数据集D;并对原始数据进行分类,将原始数据分类成结构化数据和半结构化数据;所述的结构化数据包括数据库;所述的半结构化数据包括json文件;
S2:将半结构化数据转化成结构化数据;
S3:将S2中转化后的结构化数据使用差分隐私保护算法;
S4:公布修改之后满足差分隐私保护算法的结构化数据,达到保护隐私的目的。
2.根据权利要求1所述的隐私保护方法,其特征在于,所述的S3包括以下内容:
S3.1:泛化原始数据集D中的每一个数据;
S3.2:初始化原始数据集D中每一个特性v从叶子节点到根结点的特征值;
S3.3:对原始数据集D的每一个数据更新对应的隐私预算:
所述的ζ’表示更新后的隐私预算;所述的ζ表示更新前的隐私预算;所述的表示数据表中的第n个特性v;所述的h表示需要特征化的特性v的数量;
S3.4:根据决定选择哪一个值进行分割;
所述的exp()表示以e为底的指数函数;所述的u()表示得分函数;所述的Δu通过下式进行表达:
其中,所述的E和E′表示只差一个数据的兄弟表;
S3.5:对更新后的数据集进行循环,直至完成整个数据集的特征化;
S3.6:对每一组加上噪声所述的Lap()表示拉普拉斯分布函数,所述的C表示特征化之后的特性v。
3.根据权利要求2所述的隐私保护方法,其特征在于,所述的S3.5包括以下流程:
S3.5.1:根据每一个特性v的概率选择概率最大的特性v,执行S3.5.2;
S3.5.2:将S3.5.1选择的特性v进行特征化处理,并更新U Cut i,所述的U Cut i表示数量为h的特性特征化之后的并集;
S3.5.3:根据S3.5.2之后的每一个特性v的概率选择概率最大的特性v,执行S3.5.4;
S3.5.4:更新每个特性v的得分函数u()。
4.根据权利要求1至3中任一权利要求所述的隐私保护方法,其特征在于,所述的S2包括以下内容:
通过将json文件转化成python对象,在利用pymysql模块将python对象存储相应的数据库中,实现对半结构化数据转化成结构化数据的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811642732.5A CN109670341A (zh) | 2018-12-29 | 2018-12-29 | 一种对结构化数据和半结构化数据结合的隐私保护方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811642732.5A CN109670341A (zh) | 2018-12-29 | 2018-12-29 | 一种对结构化数据和半结构化数据结合的隐私保护方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109670341A true CN109670341A (zh) | 2019-04-23 |
Family
ID=66147383
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811642732.5A Pending CN109670341A (zh) | 2018-12-29 | 2018-12-29 | 一种对结构化数据和半结构化数据结合的隐私保护方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109670341A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130145473A1 (en) * | 2011-12-05 | 2013-06-06 | Graham R. Cormode | Methods and apparatus to anonymize a dataset of spatial data |
CN105512247A (zh) * | 2015-11-30 | 2016-04-20 | 上海交通大学 | 基于一致性特征的非交互式差分隐私发布模型的优化方法 |
WO2018201009A1 (en) * | 2017-04-28 | 2018-11-01 | Anonos Inc. | Systems and methods for enforcing centralized privacy controls in de-centralized systems |
CN108959961A (zh) * | 2018-06-26 | 2018-12-07 | 安徽大学 | 一种查询平均成绩的隐私保护方法、装置、计算机设备及存储介质 |
CN109063511A (zh) * | 2018-08-16 | 2018-12-21 | 深圳云安宝科技有限公司 | 基于Web API的数据访问控制方法、装置、代理服务器及介质 |
CN109104696A (zh) * | 2018-08-13 | 2018-12-28 | 安徽大学 | 一种基于差分隐私的移动用户的轨迹隐私保护方法及系统 |
-
2018
- 2018-12-29 CN CN201811642732.5A patent/CN109670341A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130145473A1 (en) * | 2011-12-05 | 2013-06-06 | Graham R. Cormode | Methods and apparatus to anonymize a dataset of spatial data |
CN105512247A (zh) * | 2015-11-30 | 2016-04-20 | 上海交通大学 | 基于一致性特征的非交互式差分隐私发布模型的优化方法 |
WO2018201009A1 (en) * | 2017-04-28 | 2018-11-01 | Anonos Inc. | Systems and methods for enforcing centralized privacy controls in de-centralized systems |
CN108959961A (zh) * | 2018-06-26 | 2018-12-07 | 安徽大学 | 一种查询平均成绩的隐私保护方法、装置、计算机设备及存储介质 |
CN109104696A (zh) * | 2018-08-13 | 2018-12-28 | 安徽大学 | 一种基于差分隐私的移动用户的轨迹隐私保护方法及系统 |
CN109063511A (zh) * | 2018-08-16 | 2018-12-21 | 深圳云安宝科技有限公司 | 基于Web API的数据访问控制方法、装置、代理服务器及介质 |
Non-Patent Citations (1)
Title |
---|
张静等: "物联网感知层中隐私保护方法研究", 《计算机应用与软件》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105389566B (zh) | 指纹识别方法、指纹模板的更新方法、装置和移动终端 | |
Hu et al. | Enhancing two-qubit quantum coherence in a correlated dephasing channel | |
Chen | Outliers detection and confidence interval modification in fuzzy regression | |
US20180012039A1 (en) | Anonymization processing device, anonymization processing method, and program | |
CN103560963B (zh) | 一种OpenFlow流表存储空间压缩方法 | |
Giorgi et al. | Correlation approach to work extraction from finite quantum systems | |
CN106650487B (zh) | 基于多维敏感数据发布的多部图隐私保护方法 | |
CA2926293A1 (en) | Systems and methods for mapping and routing based on clustering | |
CN106557654A (zh) | 一种基于差分隐私技术的协同过滤算法 | |
CN109214404A (zh) | 基于隐私保护的训练样本生成方法和装置 | |
CN106686460B (zh) | 一种视频节目推荐方法及视频节目推荐装置 | |
Rivera-Ingraham et al. | Galactic cold cores-VIII. Filament formation and evolution: Filament properties in context with evolutionary models | |
Amini et al. | Leaden-stream: A leader density-based clustering algorithm over evolving data stream | |
CN109583228B (zh) | 一种隐私信息管理方法、装置和系统 | |
EP3696705B1 (en) | k-ANONYMIZATION DEVICE, METHOD, AND PROGRAM | |
JP2014206935A (ja) | 識別器更新装置、識別器更新プログラム、情報処理装置、および識別器更新方法 | |
CN106156317B (zh) | 一种基于属性划分的数据安全存储方法 | |
WO2020078370A1 (zh) | 社区搜索方法 | |
CN109670341A (zh) | 一种对结构化数据和半结构化数据结合的隐私保护方法 | |
JP2011034410A (ja) | クラスタリング処理方法、クラスタリング処理装置、およびプログラム | |
Zhang et al. | Robustness of cluster synchronous patterns in small-world networks with inter-cluster co-competition balance | |
CN113207101A (zh) | 基于5g城市部件传感器的信息处理方法及物联网云平台 | |
CN111061720B (zh) | 数据筛选方法、装置和电子设备 | |
TWI714321B (zh) | 資料庫更新方法和裝置、電子設備、電腦儲存介質 | |
Amini et al. | Dmm-stream: A density mini-micro clustering algorithm for evolving data streams |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190423 |