CN109726589A - 一种面向众智云环境的隐私数据访问方法 - Google Patents

一种面向众智云环境的隐私数据访问方法 Download PDF

Info

Publication number
CN109726589A
CN109726589A CN201811575825.0A CN201811575825A CN109726589A CN 109726589 A CN109726589 A CN 109726589A CN 201811575825 A CN201811575825 A CN 201811575825A CN 109726589 A CN109726589 A CN 109726589A
Authority
CN
China
Prior art keywords
data
attribute
privacy
type
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811575825.0A
Other languages
English (en)
Other versions
CN109726589B (zh
Inventor
李建强
占小瑜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201811575825.0A priority Critical patent/CN109726589B/zh
Publication of CN109726589A publication Critical patent/CN109726589A/zh
Application granted granted Critical
Publication of CN109726589B publication Critical patent/CN109726589B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种面向众智云环境的隐私数据访问方法,包括:对众智云环境中数据属性根据类型进行区分,得到不同类型属性类别;针对不同类型属性类别识别它们的隐私程度,获得不同隐私程度数据属性集合;根据数据属性隐私程度纵向划分数据属性,得到数据属性集合。本发明提出的对面向众智云环境的隐私数据访问方法,在现有的研究成果的基础上,将现有的统计学和密码学模型结合起来,能够自动识别分区数据属性并垂直分区,保护了敏感信息的隐私安全和用户的信息获取便捷的同时,也节省了人工和时间成本。

Description

一种面向众智云环境的隐私数据访问方法
技术领域
本发明涉及计算机领域,更具体地涉及一种面向众智云环境的隐私数据访问方法。
背景技术
众智云环境,是多主体资源汇聚与服务集成的分布式计算与存储环境,众智云环境中数据医疗信息化可以缩短患者就诊时间,并能共享医疗资源,实现全方位多功能医疗,改善就医体验。在云环境中存储和共享的医疗数据一般由第三方服务提供商提供,这引起了对云计算技术中个人隐私的重点关注。
为了兼顾信息的隐私安全和信息利用率,数据分区已被应用到数据存储在云平台上的处理中,在将数据垂直分区后再分别对数据集进行隐私保护操作,已被证明能够很好地平衡信息的私密度保护和信息访问率。
但是在现实生活中,云存储平台中的医疗数据量级都比较大,现有的数据垂直分区都是人工半自动分区,所涉及的数据量庞大且准确度可能有偏差,所以,可以在原有的统计学和密码学基础上,考虑到数据不同属性的信息敏感程度和信息分布的不同,设计一种能自动化将数据集纵向分割从而减少工作量和提高正确率的方法。
在众智云存储环境中,数据量级都比较大,隐私保护的计算成本和用户获取信息利用率是重要的衡量标准。在众智云存储实际应用中,数据类型和数量往往较多,其中可能存在私密度不高的数据类型,而统计学和密码学一般都涉及整套医疗记录获取和利用有关的隐私,这容易导致如下的后果:(1)加密的数据类型越多,使得众智云中数据访问所需时间越长;(2)加密的数据类型越多,在数据访问过程中需要解密的数据量越多,信息利用率越低。
在众智云存储数据共享时的隐私保护和数据利用的效率难以两全,所以,可以在原有的统计学和密码学基础上,考虑到数据不同属性的隐私安全需求和信息利用率不同,能平衡用户的隐私安全需求和获取信息的效率。数据分区在解决上述问题时起到了重要作用。数据分区是指从原始数据集中选择隐私程度较高的数据类型并将其与其他数据类型分区。数据分区能将数据类型按照私密程度分类,从而达到减少需要加密数据类型个数,提高数据访问效率,减少运行时间的目的。另一方面,选取出私密程度不高但信息利用率较高的数据类型,使得用户访问数据时更为方便。
2016年由赵军发表在科技通报的论文“云存储中隐私保护数据的抗泄露加密算法”中,通过分析云存储系统中的隐私保护数据的数据结构模型,进行隐私保护数据的数据编码序列分析,并设计了云存储系统中隐私保护数据的线性编码和密钥。引入可撤销多重循环控制方法,实现云存储系统中隐私保护数据的抗泄露加密算法的改进,在整个过程中保证了数据的保密性。此方法考虑的是在云存储环境中对传输数据的隐私保护,能够很好地保护数据隐私信息,但是却没有将运行成本考虑进去,在数据庞大的情况下不能很好地运用到实际中。
2015年由Yang J J、Li J Q和NiuY发表的论文“Ahybrid solutionforprivacypreserving medical data sharing in the cloud environment”中,提出了一种用于云计算的隐私保护病历共享的实用解决方案。在对病历属性进行分类的基础上,利用医学数据集的垂直分割,实现对不同隐私关注的医疗数据的不同部分的考虑。Yang的论文中的云存储数据共享私密保护混合方法从数据垂直分区出发,在已有的统计学和密码学基础上,很好的平衡了数据利用率和信息私密性。然而,在论文中的数据垂直分区是依赖相关人员进行手动判断对原始数据进行垂直分区的,现实生活中,众智云环境数据种类庞大,依赖人工分区将会花费很多时间。
上面介绍的已有众智云环境中的数据隐私保护方法虽然都针对存储数据进行了数据隐私保护的处理,但是对于众智云环境存储的数据来说,往往需要考虑数据的人工成本和时间成本。为了兼顾信息的隐私安全和信息利用率,数据分区已被应用到数据存储在云平台上的处理中,在将数据垂直分区后再分别对数据集进行隐私保护操作,已被证明能够很好地平衡信息的私密度保护和信息访问率。但是,在数据集庞杂的情况下,如果进行人工分类,将会产生大量的工作量,对于这步操作,根据数据属性分布自动划分纵向分割,产生不同的数据类别,才能更为合理有效。
发明内容
为了解决上述技术问题,本发明提供了一种面向众智云环境的隐私数据访问方法,包括如下步骤:
步骤S1:对众智云环境中数据属性根据类型进行区分,得到不同类型属性类别;
步骤S2:针对不同类型属性类别识别它们的隐私程度,获得不同隐私程度数据属性集合;
步骤S3:根据数据属性集合的不同隐私程度纵向划分数据属性,得到数据属性集合。
进一步,步骤S1中根据类型对数据属性进行区分,得到不同类型属性类别包括:
对于输入的属性集名合A和属性值集合T,根据数据属性Ai的取值类型来判断Ti中数据的类型,i∈1,2,3...n;将数据属性集合A分为数值型属性集合Anum={A1,A2,...,A|num|}和字符型属性集合Astr={A1,A2,...,A|str|};
进一步,步骤S2中针对不同类型属性类别识别它们的隐私程度,获得不同隐私程度数据属性集合包括:
对于在步骤S1中已经分类好的数值型属性集合和字符型属性集合,分别对每一对(Ai,Ti)进行隐私程度判断。若Ai的取值类型为整型数,则统计Ti中的元素分布情况,将Ai划分到EID类别或者QID类别;若Ti的取值不为整型类,则根据其是否为自由文本将属性Ai划分为自由文本MI类别,否则将该数据类型当做数值型处理;
进一步,步骤S3根据数据属性隐私程度纵向划分数据属性,得到数据属性集合包括:
在步骤S2将输入的属性集名合A和属性值集合T,通过识别属性隐私程度后分为三大类数据属性集合QID、EID和MI后,再根据数据属性集合对数据集中不同属性进行纵向切割,最后得到纵向分区后的三个表Tp,Ta,Te
与现有方法相比,本发明具有以下优点:
本发明相对于现有的众智云数据访问方法,可以通过对数据属性取值的分布来判断数据属性的隐私程度,从而根据数据属性的隐私程度将数据属性自动划分为不同数据属性集合,带来数据私密精度和速度的提升。
附图说明
图1为本发明实施例面向众智云环境的隐私数据访问方法框图。
图2为本方法的流程图。
具体实施方式
下面结合附图与实施例对本发明做进一步的详细说明。附图均为简化的示意图,仅以示意方式说明本发明的基本结构,因此其仅现实与本发明有关的构成。
下面给出本发明的一个实施例,如图1-2所示,本实施例提供了一种面向众智云环境的医疗隐私数据访问方法,在现有的已被证明有效的方法基础上,对数据分区部分做出了改进,包括以下步骤:
步骤S1:对众智云环境中数据属性根据类型进行区分,得到不同类型属性类别;
步骤S2:针对不同类型属性类别识别它们的隐私程度,获得不同隐私程度数据属性集合;
步骤S3:根据数据属性隐私程度纵向划分数据属性,得到数据属性集合。
具体的,所述步骤S1中对于输入的属性集名合A和属性值集合T,顺序处理每一对(Ai,Ti),i∈1,2,3...n,通过分析Ti的数据属性来决定对Ai的划分操作,通过数据属性Ai的取值类型来判断Ti中数据的类型,如果数据表设计中没有记录Ai的取值属性,可以通过从Ti中随机取一个数据集长度较小的子集M,通过M中元素的取值类型来推断Ai的取值类型,将数据属性集合A分为数值型属性集合Anum={A1,A2,...,A|num|}和字符型属性集合Astr={A1,A2,...,A|str|};
具体的,所述步骤S2中在步骤S1中分类好数值型属性集合和字符型属性集合的基础上,分别对每一对(Ai,Ti)进行隐私程度判断,其中i∈1,2,3...n,首先统计Ti的数据集长度,记为LEN,则有
LEN=size(Ti)i∈1,2,3...n
1.如果Ai的取值类型为整型数,则统计Ti中的元素分布情况,生成Di,如下所示:
其中Di是个二元组,T′i是Ti中不重复元素组成的集合,Ni是由T′i中每个元素在Ti中出现的次数组成的集合。
(1)若T′i与Ti一致,则此时Ai属性中所有属性值都是唯一的,认为属性Ai信息敏感程度很高,将Ai划分到EID类别;
(2)当T′i不与Ti一致时,考虑T′i集合中的个数,若T′i中元素个数低于阈值t,则认为属性Ai信息敏感程度不高,将Ai划分到QID类别;否则通过下面的均方根公式来检查数据分布情况:
记th(x)为阈值函数,通过大量实验数据来确定th(DSTi)的值,当DSTi>th(DSTi)则认为数据分布不均匀,否则认为数据分布较为均匀。
如果数据分布不均匀,这时将Ai归属到QID类中,对信息进行匿名化处理即可;若数据分布较为均匀,检查T′i是否是小规模的枚举类型,如性别,年龄等,通过大量实验数据,确定S的阈值th(Si),若满足:Si<th(Si),则认为是小规模枚举,归属QID类,否则归属EID类
若Ti的取值不为整型类,则需要判断是否为自由文本。根据自由文本长度不一且较长的特点,取Ti中元素的平均长度,记为TL,则有:
其中strlen()为计算字符串长度的函数,另th(TL)为TL的判定阈值。若TL<th(TL),则将该数据当做整型类处理,否则将属性Ai划分为MI类别。
具体的,所述步骤S3中在步骤S2的基础上,在将输入的属性集名合A和属性值集合T,通过识别属性隐私程度后分为三大类数据属性集合QID、EID和MI后,再根据数据属性集合对数据集中不同属性进行纵向切割:
(1)将对称加密和非对称加密结合加密EID和QID得到Te表。
(2)将MI中医疗信息提取出来存入明文表Tp中:
tpi(Aj)=ti(Aj),Aj∈MI,i=1,2,…,n;
(3)将ti中所有MI自由文本属性值都串联在属性mti的值上,基于mti进行语义距离计算后将T中的所有元组聚类成x组,1≤i≤n,并给每组及其包含的元组分配标签cj,1≤j≤x,cj被看作是分类敏感属性值来进行t-closeness计算。当使用cj作为分类敏感属性值计算的t-closeness用于隐私保护时,得到信息损失最小的k-匿名分区:
P(T)={E1,E2,…,En},tai(Aj)=Range(Ek),ti∈Ek,Aj∈QID,i=1,2,…,n
最后得到纵向分区后的三个表Tp,Ta,Te
但是,需要明确,本发明并不局限于上文所描述并在图中示出的特定配置和处理。并且,为了简明起见,这里省略对已知方法技术的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神之后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
本发明可以以其他的具体形式实现,而不脱离其精神和本质特征。例如,特定实施例中所描述的算法可以被修改,而系统体系结构并不脱离本发明的基本精神。因此,当前的实施例在所有方面都被看作是示例性的而非限定性的,本发明的范围由所附权利要求而非上述描述定义,并且,落入权利要求的含义和等同物的范围内的全部改变从而都被包括在本发明的范围之中。
本发明相对于现有的基于数据垂直分区的数据访问方法,可以根据数据属性隐私程度自动分区,不同隐私程度的数据属性被划分进不同的数据属性集合中,在保护了敏感信息的隐私安全和用户的信息获取便捷的同时,节省了人工和时间成本。

Claims (4)

1.一种面向众智云环境的隐私数据访问方法,其特征在于:该方法包括如下步骤:
步骤S1:对众智云环境中数据属性根据类型进行区分,得到不同类型属性类别;
步骤S2:针对不同类型属性类别识别它们的隐私程度,获得不同隐私程度数据属性集合;
步骤S3:根据数据属性集合的不同隐私程度纵向划分数据属性,得到数据属性集合。
2.根据权利要求1所述的一种面向众智云环境的隐私数据访问方法,其特征在于:步骤S1中根据类型对数据属性进行区分,得到不同类型属性类别包括:
对于输入的属性集名合A和属性值集合T,根据数据属性Ai的取值类型来判断Ti中数据的类型,i∈1,2,3...n;将数据属性集合A分为数值型属性集合Anum={A1,A2,...,A|num|}和字符型属性集合Astr={A1,A2,…,A|str|}。
3.根据权利要求1所述的一种面向众智云环境的隐私数据访问方法,其特征在于:步骤S2中针对不同类型属性类别识别它们的隐私程度,获得不同隐私程度数据属性集合包括:
对于在步骤S1中已经分类好的数值型属性集合和字符型属性集合,分别对每一对(Ai,Ti)进行隐私程度判断;若Ai的取值类型为整型数,则统计Ti中的元素分布情况,将Ai划分到EID类别或者QID类别;若Ti的取值不为整型类,则根据其是否为自由文本将属性Ai划分为自由文本MI类别,否则将该数据类型当做数值型处理。
4.根据权利要求1所述的一种面向众智云环境的隐私数据访问方法,其特征在于:步骤S3根据数据属性隐私程度纵向划分数据属性,得到数据属性集合包括:
在步骤S2将输入的属性集名合A和属性值集合T,通过识别属性隐私程度后分为三大类数据属性集合QID、EID和MI后,再根据数据属性集合对数据集中不同属性进行纵向切割,最后得到纵向分区后的三个表Tp,Ta,Te
CN201811575825.0A 2018-12-22 2018-12-22 一种面向众智云环境的隐私数据访问方法 Active CN109726589B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811575825.0A CN109726589B (zh) 2018-12-22 2018-12-22 一种面向众智云环境的隐私数据访问方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811575825.0A CN109726589B (zh) 2018-12-22 2018-12-22 一种面向众智云环境的隐私数据访问方法

Publications (2)

Publication Number Publication Date
CN109726589A true CN109726589A (zh) 2019-05-07
CN109726589B CN109726589B (zh) 2021-11-12

Family

ID=66297106

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811575825.0A Active CN109726589B (zh) 2018-12-22 2018-12-22 一种面向众智云环境的隐私数据访问方法

Country Status (1)

Country Link
CN (1) CN109726589B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113468561A (zh) * 2021-06-18 2021-10-01 宝湾资本管理有限公司 数据保护方法、装置及服务器

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102542209A (zh) * 2010-12-21 2012-07-04 日电(中国)有限公司 数据匿名方法和系统
US20130198194A1 (en) * 2012-01-31 2013-08-01 International Business Machines Corporation Method and system for preserving privacy of a dataset
CN103914659A (zh) * 2014-03-12 2014-07-09 西安电子科技大学 基于频率的轨迹抑制数据发布隐私保护的系统及其方法
US20140237620A1 (en) * 2011-09-28 2014-08-21 Tata Consultancy Services Limited System and method for database privacy protection
CN104572827A (zh) * 2014-12-08 2015-04-29 北京工业大学 一种基于跨明文与密文的混合搜索系统
CN104732154A (zh) * 2013-12-18 2015-06-24 国际商业机器公司 将数据匿名化的方法和系统
CN104731976A (zh) * 2015-04-14 2015-06-24 海量云图(北京)数据技术有限公司 数据表中隐私数据的发现与分类方法
CN106021541A (zh) * 2016-05-26 2016-10-12 徐州医科大学 区分准标识符属性的二次k-匿名隐私保护算法
US20160342637A1 (en) * 2015-05-22 2016-11-24 International Business Machines Corporation Detecting quasi-identifiers in datasets
CN107832631A (zh) * 2017-11-13 2018-03-23 上海斐讯数据通信技术有限公司 一种数据发布的隐私保护方法和系统
CN107943925A (zh) * 2017-11-21 2018-04-20 华中师范大学 用于隐私信息匿名发布系统中个体信息的模糊化方法
US20180218173A1 (en) * 2017-01-31 2018-08-02 Ca, Inc. Privacy preserving cross-organizational data sharing with anonymization filters

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102542209A (zh) * 2010-12-21 2012-07-04 日电(中国)有限公司 数据匿名方法和系统
US20140237620A1 (en) * 2011-09-28 2014-08-21 Tata Consultancy Services Limited System and method for database privacy protection
US20130198194A1 (en) * 2012-01-31 2013-08-01 International Business Machines Corporation Method and system for preserving privacy of a dataset
CN104732154A (zh) * 2013-12-18 2015-06-24 国际商业机器公司 将数据匿名化的方法和系统
CN103914659A (zh) * 2014-03-12 2014-07-09 西安电子科技大学 基于频率的轨迹抑制数据发布隐私保护的系统及其方法
CN104572827A (zh) * 2014-12-08 2015-04-29 北京工业大学 一种基于跨明文与密文的混合搜索系统
CN104731976A (zh) * 2015-04-14 2015-06-24 海量云图(北京)数据技术有限公司 数据表中隐私数据的发现与分类方法
US20160342637A1 (en) * 2015-05-22 2016-11-24 International Business Machines Corporation Detecting quasi-identifiers in datasets
CN106021541A (zh) * 2016-05-26 2016-10-12 徐州医科大学 区分准标识符属性的二次k-匿名隐私保护算法
US20180218173A1 (en) * 2017-01-31 2018-08-02 Ca, Inc. Privacy preserving cross-organizational data sharing with anonymization filters
CN107832631A (zh) * 2017-11-13 2018-03-23 上海斐讯数据通信技术有限公司 一种数据发布的隐私保护方法和系统
CN107943925A (zh) * 2017-11-21 2018-04-20 华中师范大学 用于隐私信息匿名发布系统中个体信息的模糊化方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JIAN PEI: "Privacy Preserving Publishing on Multiple Quasi-identifiers", 《2009 IEEE 25TH INTERNATIONAL CONFERENCE ON DATA ENGINEERING》 *
JI-JIANG YANG 等: "A hybrid solution for privacy preserving medical data sharing in the cloud environment", 《FUTURE GENERATION COMPUTER SYSTEMS》 *
王群: "面向共享的数据隐私保护匿名方法研究", 《中国优秀博硕士学位论文全文数据库(硕士)》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113468561A (zh) * 2021-06-18 2021-10-01 宝湾资本管理有限公司 数据保护方法、装置及服务器
CN113468561B (zh) * 2021-06-18 2024-04-23 宝湾资本管理有限公司 数据保护方法、装置及服务器

Also Published As

Publication number Publication date
CN109726589B (zh) 2021-11-12

Similar Documents

Publication Publication Date Title
US11468192B2 (en) Runtime control of automation accuracy using adjustable thresholds
Paryasto et al. Big-data security management issues
WO2022116491A1 (zh) 基于横向联邦的dbscan聚类方法、及其相关设备
CN109117669B (zh) MapReduce相似连接查询的隐私保护方法及系统
Li et al. A review on privacy-preserving data mining
Kreso et al. Data mining privacy preserving: Research agenda
CN109684272A (zh) 文档保存方法、系统及终端设备
Sharma et al. A review study on the privacy preserving data mining techniques and approaches
Hartmann et al. Privacy-preserving classification with secret vector machines
Senosi et al. Classification and evaluation of privacy preserving data mining: a review
Yadav et al. Big data hadoop: Security and privacy
Alvarez et al. Risks and security solutions existing in the Internet of things (IoT) in relation to Big Data
CN112000979B (zh) 隐私数据的数据库操作方法、系统及存储介质
Lebrun et al. MixNN: protection of federated learning against inference attacks by mixing neural network layers
Chen et al. Data anonymization evaluation against re-identification attacks in edge storage
CN109726589A (zh) 一种面向众智云环境的隐私数据访问方法
Allam et al. Ledger technology of blockchain and its impact on operational performance of banks: a review
Shanmukhi et al. Big data: Query processing
CN107229743A (zh) 一种商务管理用大数据分类利用方法及系统
Bogdanov et al. Risk model of application of lifting methods
CN105630978A (zh) 信息收集方法和装置
Ahsan et al. Blockchain and Big Data: Exploring Convergence for Privacy, Security and Accountability
Bartoletti et al. Security and privacy risks in the blockchain ecosystem
Kubigenova et al. Prospects for Information Security in Big Data Technology
Adhau et al. Information Security and Data Mining in Big Data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant