CN109670341A - 一种对结构化数据和半结构化数据结合的隐私保护方法 - Google Patents

一种对结构化数据和半结构化数据结合的隐私保护方法 Download PDF

Info

Publication number
CN109670341A
CN109670341A CN201811642732.5A CN201811642732A CN109670341A CN 109670341 A CN109670341 A CN 109670341A CN 201811642732 A CN201811642732 A CN 201811642732A CN 109670341 A CN109670341 A CN 109670341A
Authority
CN
China
Prior art keywords
data
semi
characteristic
structural
structured
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811642732.5A
Other languages
English (en)
Inventor
杜依宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201811642732.5A priority Critical patent/CN109670341A/zh
Publication of CN109670341A publication Critical patent/CN109670341A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6227Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Storage Device Security (AREA)

Abstract

本发明公开了一种对结构化数据和半结构化数据结合的隐私保护方法,包括以下步骤:S1:收集原始数据,形成原始数据集D;并对原始数据进行分类,将原始数据分类成结构化数据和半结构化数据;所述的结构化数据包括数据库;所述的半结构化数据包括json文件;S2:将半结构化数据转化成结构化数据;S3:将S2中转化后的结构化数据使用差分隐私保护算法;S4:公布修改之后满足差分隐私保护算法的结构化数据。本发明实现了对结构化和半结构化相结合的数据的ζ‑差分隐私保护,能更好的适应当下时代的发展趋势,既能满足对隐私的保护,又能满足数据挖掘者的要求,数据的可用性也不会降低太多。

Description

一种对结构化数据和半结构化数据结合的隐私保护方法
技术领域
本发明属于信息安全领域,更具体地,涉及一种对结构化数据和半结构化数据结合的隐私保护方法。
背景技术
随着电子科技的不断发展,大量的数据以电子的形式存储,网络技术也在不断的进步。近几年,数据挖掘技术逐渐成为热门,在挖掘中,个人的隐私数据更容易泄露。隐私的保护成为了制约数据挖掘更进一步发展的瓶颈之一。
随着时代的发展,结构化的数据已经渐渐不能满足日益增长的数据规模,大量的非结构化数据和半结构数据出现在人们的视野中,非结构化的数据主要包括,图片,声音,视频等,而半结构化数据介于结构化数据和半结构化数据之间存在一定的结构,存在一定的结构,但是结构并不是固定的,相比结构化数据更灵活,相比非结构化数据更容易进行数据的处理。
目前流行的隐私保护算法主要包括k-匿名算法(将需要发布的数据的标识符隐去,对准标识符概化)和差分隐私保护算法(对将要发布的数据或者将要进行的查询添加干扰,达到保护隐私的目的)。
目前的隐私保护算法主要用于结构化数据,很少将隐私保护算法应用在两种数据格式相结合的情况下,出现了灵活性不足的问题。
发明内容
为解决现有的技术缺陷,本发明公开了一种新的对结构化数据和半结构化数据结合的隐私保护方法。本发明实现了对结构化和半结构化相结合的数据的ζ-差分隐私保护,能更好的适应当下时代的发展趋势,既能满足对隐私的保护,又能满足数据挖掘者的要求,数据的可用性也不会降低太多。
为解决上述技术问题,本发明的技术方案如下:
一种对结构化数据和半结构化数据结合的隐私保护方法,包括以下步骤:
S1:收集原始数据,形成原始数据集D;并对原始数据进行分类,将原始数据分类成结构化数据和半结构化数据;所述的结构化数据包括数据库;所述的半结构化数据包括json文件;
S2:将半结构化数据转化成结构化数据;
S3:将S2中转化后的结构化数据使用差分隐私保护算法;
S4:公布修改之后满足差分隐私保护算法的结构化数据,达到保护隐私的目的。
本发明中,首先需要对数据进行分类处理,需要将数据分类成结构化形式存储的数据和半结构化形式存储的数据。对于结构化存储的数据,可以直接使用保护算法进行保护,并对外公开,不会对其中用户的隐私信息造成危害。而对于半结构化形式存储的数据,因为在半结构化数据中,结构与数据相融,难以纳入现有的各种描述框架,整体上具有动态的结构模式,所以没有隐私保护算法能够直接作用在半结构化数据中,需要对半结构化数据进行转化。
在一种优选的方案中,所述的S3包括以下内容:
S3.1:泛化原始数据集D中的每一个数据,泛化是指用笼统的变量代替具体的变量,比如Engineer,Lawyer泛化成Professional,34泛化成(18-65);
S3.2:初始化原始数据集D中每一个特性v从叶子节点到根结点的特征值;
S3.3:对原始数据集D的每一个数据更新对应的隐私预算:
所述的ζ’表示更新后的隐私预算,所述的ζ表示更新前的隐私预算,隐私预算ζ越小则说明保护的程度越大;所述的表示数据表中的第n个特性v;所述的h表示需要特征化的特性v的数量;
S3.4:根据决定选择哪一个值进行分割;
所述的exp()表示以e为底的指数函数;所述的u()表示得分函数;所述的Δu通过下式进行表达:
其中,所述的E和E'表示只差一个数据的兄弟表;
S3.5:对更新后的数据集进行循环,直至完成整个数据集的特征化;
S3.6:对每一组加上噪声所述的Lap()表示拉普拉斯分布函数,所述的C表示特征化之后的特性v。
在一种优选的方案中,S3.5.1:根据每一个特性v的概率选择概率最大的特性v,执行S3.5.2;
S3.5.2:将S3.5.1选择的特性v进行特征化处理,并更新UCuti,所述的UCuti表示数量为h的特性特征化之后的并集;
S3.5.3:根据S3.5.2之后的每一个特性v的概率选择概率最大的特性v,执行S3.5.4;
S3.5.4:更新每个特性v的得分函数u()。
在一种优选的方案中,所述的S2包括以下内容:
通过将json文件转化成python对象,在利用pymysql模块将python对象存储相应的数据库中,实现对半结构化数据转化成结构化数据的操作。
本优选方案中,主要通过python中json模块和pymysql模块,其中json模块的主要作用是实现json对象和python对象之间的相互转化,将json对象转化成python对象使用函数json.dump()和json.dumps()。将python对象转化成json对象使用函数json.load()和json.loads()。Pymysql模块是在python中操作mysql的一个模块,通过该模块,可以操作mysql中的数据库,实现数据库的增删查改,将上述两个模块相结合,即可实现对半结构化数据转化成结构化数据。
与现有技术相比,本发明技术方案的有益效果是:
本发明实现了对结构化和半结构化相结合的数据的ζ-差分隐私保护,能更好的适应当下时代的发展趋势,既能满足对隐私的保护,又能满足数据挖掘者的要求,数据的可用性也不会降低太多。
附图说明
图1为本实施例的流程图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
如图1所示,一种对结构化数据和半结构化数据结合的隐私保护方法,包括以下步骤:
S1:收集原始数据,形成原始数据集D;并对原始数据进行分类,将原始数据分类成结构化数据和半结构化数据;结构化数据包括数据库;半结构化数据包括json文件;
S2:将半结构化数据转化成结构化数据;
json文件的转化过程:通过使用python中json模块和pymysql模块,将json文件转化成python对象,在利用pymysql模块将python对象存储相应的数据库中,实现对半结构化数据转化成结构化数据的操作;
S3:将S2中转化后的结构化数据使用差分隐私保护算法;
S3.1:泛化原始数据集D中的每一个数据,泛化是指用笼统的变量代替具体的变量,比如Engineer,Lawyer泛化成Professional,34泛化成(18-65);
S3.2:初始化原始数据集D中每一个特性v从叶子节点到根结点的特征值;
S3.3:对原始数据集D的每一个数据更新对应的隐私预算:
ζ’表示更新后的隐私预算,ζ表示更新前的隐私预算,隐私预算ζ越小则说明保护的程度越大;表示数据表中的第n个特性v;h表示需要特征化的特性v的数量;
S3.4:根据决定选择哪一个值进行分割;
exp()表示以e为底的指数函数;u()表示得分函数;Δu通过下式进行表达:
其中,E和E'表示只差一个数据的兄弟表;
S3.5:对更新后的数据集进行以下循环,直至完成整个数据集的特征化:
S3.5.1:根据每一个特性v的概率选择概率最大的特性v,执行S3.5.2;
S3.5.2:将S3.5.1选择的特性v进行特征化处理,并更新UCuti,UCuti表示数量为h的特性特征化之后的并集;
S3.5.3:根据S3.5.2之后的每一个特性v的概率选择概率最大的特性v,执行S3.5.4;
S3.5.4:更新每个特性v的得分函数u();
S3.6:对每一组加上噪声Lap()表示拉普拉斯分布函数,C表示特征化之后的特性v;
S4:公布修改之后满足差分隐私保护算法的结构化数据,达到保护隐私的目的。
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (4)

1.一种对结构化数据和半结构化数据结合的隐私保护方法,其特征在于,包括以下步骤:
S1:收集原始数据,形成原始数据集D;并对原始数据进行分类,将原始数据分类成结构化数据和半结构化数据;所述的结构化数据包括数据库;所述的半结构化数据包括json文件;
S2:将半结构化数据转化成结构化数据;
S3:将S2中转化后的结构化数据使用差分隐私保护算法;
S4:公布修改之后满足差分隐私保护算法的结构化数据,达到保护隐私的目的。
2.根据权利要求1所述的隐私保护方法,其特征在于,所述的S3包括以下内容:
S3.1:泛化原始数据集D中的每一个数据;
S3.2:初始化原始数据集D中每一个特性v从叶子节点到根结点的特征值;
S3.3:对原始数据集D的每一个数据更新对应的隐私预算:
所述的ζ’表示更新后的隐私预算;所述的ζ表示更新前的隐私预算;所述的表示数据表中的第n个特性v;所述的h表示需要特征化的特性v的数量;
S3.4:根据决定选择哪一个值进行分割;
所述的exp()表示以e为底的指数函数;所述的u()表示得分函数;所述的Δu通过下式进行表达:
其中,所述的E和E′表示只差一个数据的兄弟表;
S3.5:对更新后的数据集进行循环,直至完成整个数据集的特征化;
S3.6:对每一组加上噪声所述的Lap()表示拉普拉斯分布函数,所述的C表示特征化之后的特性v。
3.根据权利要求2所述的隐私保护方法,其特征在于,所述的S3.5包括以下流程:
S3.5.1:根据每一个特性v的概率选择概率最大的特性v,执行S3.5.2;
S3.5.2:将S3.5.1选择的特性v进行特征化处理,并更新U Cut i,所述的U Cut i表示数量为h的特性特征化之后的并集;
S3.5.3:根据S3.5.2之后的每一个特性v的概率选择概率最大的特性v,执行S3.5.4;
S3.5.4:更新每个特性v的得分函数u()。
4.根据权利要求1至3中任一权利要求所述的隐私保护方法,其特征在于,所述的S2包括以下内容:
通过将json文件转化成python对象,在利用pymysql模块将python对象存储相应的数据库中,实现对半结构化数据转化成结构化数据的操作。
CN201811642732.5A 2018-12-29 2018-12-29 一种对结构化数据和半结构化数据结合的隐私保护方法 Pending CN109670341A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811642732.5A CN109670341A (zh) 2018-12-29 2018-12-29 一种对结构化数据和半结构化数据结合的隐私保护方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811642732.5A CN109670341A (zh) 2018-12-29 2018-12-29 一种对结构化数据和半结构化数据结合的隐私保护方法

Publications (1)

Publication Number Publication Date
CN109670341A true CN109670341A (zh) 2019-04-23

Family

ID=66147383

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811642732.5A Pending CN109670341A (zh) 2018-12-29 2018-12-29 一种对结构化数据和半结构化数据结合的隐私保护方法

Country Status (1)

Country Link
CN (1) CN109670341A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130145473A1 (en) * 2011-12-05 2013-06-06 Graham R. Cormode Methods and apparatus to anonymize a dataset of spatial data
CN105512247A (zh) * 2015-11-30 2016-04-20 上海交通大学 基于一致性特征的非交互式差分隐私发布模型的优化方法
WO2018201009A1 (en) * 2017-04-28 2018-11-01 Anonos Inc. Systems and methods for enforcing centralized privacy controls in de-centralized systems
CN108959961A (zh) * 2018-06-26 2018-12-07 安徽大学 一种查询平均成绩的隐私保护方法、装置、计算机设备及存储介质
CN109063511A (zh) * 2018-08-16 2018-12-21 深圳云安宝科技有限公司 基于Web API的数据访问控制方法、装置、代理服务器及介质
CN109104696A (zh) * 2018-08-13 2018-12-28 安徽大学 一种基于差分隐私的移动用户的轨迹隐私保护方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130145473A1 (en) * 2011-12-05 2013-06-06 Graham R. Cormode Methods and apparatus to anonymize a dataset of spatial data
CN105512247A (zh) * 2015-11-30 2016-04-20 上海交通大学 基于一致性特征的非交互式差分隐私发布模型的优化方法
WO2018201009A1 (en) * 2017-04-28 2018-11-01 Anonos Inc. Systems and methods for enforcing centralized privacy controls in de-centralized systems
CN108959961A (zh) * 2018-06-26 2018-12-07 安徽大学 一种查询平均成绩的隐私保护方法、装置、计算机设备及存储介质
CN109104696A (zh) * 2018-08-13 2018-12-28 安徽大学 一种基于差分隐私的移动用户的轨迹隐私保护方法及系统
CN109063511A (zh) * 2018-08-16 2018-12-21 深圳云安宝科技有限公司 基于Web API的数据访问控制方法、装置、代理服务器及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张静等: "物联网感知层中隐私保护方法研究", 《计算机应用与软件》 *

Similar Documents

Publication Publication Date Title
CN105389566B (zh) 指纹识别方法、指纹模板的更新方法、装置和移动终端
Hu et al. Enhancing two-qubit quantum coherence in a correlated dephasing channel
Chen Outliers detection and confidence interval modification in fuzzy regression
US20180012039A1 (en) Anonymization processing device, anonymization processing method, and program
CN103560963B (zh) 一种OpenFlow流表存储空间压缩方法
Giorgi et al. Correlation approach to work extraction from finite quantum systems
CN106650487B (zh) 基于多维敏感数据发布的多部图隐私保护方法
CA2926293A1 (en) Systems and methods for mapping and routing based on clustering
CN106557654A (zh) 一种基于差分隐私技术的协同过滤算法
CN109214404A (zh) 基于隐私保护的训练样本生成方法和装置
CN106686460B (zh) 一种视频节目推荐方法及视频节目推荐装置
Rivera-Ingraham et al. Galactic cold cores-VIII. Filament formation and evolution: Filament properties in context with evolutionary models
Amini et al. Leaden-stream: A leader density-based clustering algorithm over evolving data stream
CN109583228B (zh) 一种隐私信息管理方法、装置和系统
EP3696705B1 (en) k-ANONYMIZATION DEVICE, METHOD, AND PROGRAM
JP2014206935A (ja) 識別器更新装置、識別器更新プログラム、情報処理装置、および識別器更新方法
CN106156317B (zh) 一种基于属性划分的数据安全存储方法
WO2020078370A1 (zh) 社区搜索方法
CN109670341A (zh) 一种对结构化数据和半结构化数据结合的隐私保护方法
JP2011034410A (ja) クラスタリング処理方法、クラスタリング処理装置、およびプログラム
Zhang et al. Robustness of cluster synchronous patterns in small-world networks with inter-cluster co-competition balance
CN113207101A (zh) 基于5g城市部件传感器的信息处理方法及物联网云平台
CN111061720B (zh) 数据筛选方法、装置和电子设备
TWI714321B (zh) 資料庫更新方法和裝置、電子設備、電腦儲存介質
Amini et al. Dmm-stream: A density mini-micro clustering algorithm for evolving data streams

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190423