CN107832630A - 一种数据自治开放模式下的隐私保护系统 - Google Patents

一种数据自治开放模式下的隐私保护系统 Download PDF

Info

Publication number
CN107832630A
CN107832630A CN201711096849.3A CN201711096849A CN107832630A CN 107832630 A CN107832630 A CN 107832630A CN 201711096849 A CN201711096849 A CN 201711096849A CN 107832630 A CN107832630 A CN 107832630A
Authority
CN
China
Prior art keywords
data
layer
synthesis
privacy
difference privacy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711096849.3A
Other languages
English (en)
Other versions
CN107832630B (zh
Inventor
王智慧
周旭晨
朱扬勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN201711096849.3A priority Critical patent/CN107832630B/zh
Publication of CN107832630A publication Critical patent/CN107832630A/zh
Application granted granted Critical
Publication of CN107832630B publication Critical patent/CN107832630B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6227Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2141Access rights, e.g. capability lists, access control lists, access tables, access matrices

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Storage Device Security (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于数据信息隐私保护技术领域,具体为一种数据自治开放模式下的隐私保护系统。本发明系统采用层次化结构,包括数据层、机制层、合成层和接口层;数据开放对于提升数据资源的应用价值具有十分重要的意义,但是出于隐私保护的考虑,数据开放不能不加限制,而应该是有监管的开放,即采取数据自治开放模式。本发明系统采取基于差分隐私的数据合成,可以实现面向隐私保护的数据发布与数据访问、以及防范数据拼图的攻击行为,从而给数据开放提供有力保障。

Description

一种数据自治开放模式下的隐私保护系统
技术领域
本发明属于数据信息隐私保护技术领域,具体涉及一种数据自治开放模式下的隐私保护系统。
背景技术
随着大数据时代的来临,数据资源的战略性和商业价值越来越被人们所认同和重视,数据资源的开放共享需求也日益紧迫。然而在现实中,数据资源开放共享的重要性虽为人们所广泛认同,但数据资源的开放共享却变得越来越困难。造成这种局面的主要原因之一是数据开放共享时的隐私保护问题。
以医疗数据开放为例,医疗数据开放显然能够为医疗数据开发利用提供便利,以及为临床诊断、药物研发等方面提供数据支持,推动医疗数据价值的实现。但是,医疗数据常包含较多的隐私信息,例如,患者个人信息、既往病史、就诊记录等。因此,出于对患者的隐私保护的考虑,医疗数据的开放将不可避免地受到制约。
从数据开放模式下的隐私保护需求来考虑,一方面要求实现对个体隐私的保护,即保护数据所描述的个体对象的隐私;另一方面也要求对数据自身的稀缺性加以保护,即保护数据开放方提供的原始数据的整体隐私不被非法攫取。因此,从隐私保护的角度来说,数据开放要求必然是有监管的开放,即采取数据自治开放模式。
在现实应用中,攻击者的背景知识通常难以预知,而差分隐私(differentialprivacy) 不受攻击者背景知识的约束,通过引入适当的噪声数据来达到保护隐私的目的。同时,差分隐私的一个显著特征是具有严格的数学基础,具备可证明的隐私保护能力,因此差分隐私在隐私风险的量化评估上也具有明显优势。
但传统的差分隐私实现方法是先接受数据查询请求或数据挖掘请求,然后通过向数据查询结果或者数据挖掘结果中添加适当的噪声来达到保护隐私的目的。这种方式通常受限于数据查询或者数据挖掘的类别,根据不同类型的数据查询或者数据挖掘需要分别采取相应的方式来添加噪声,以满足差分隐私的保护需求。这种方式的局限性在于,一方面限制了数据开放的应用范围,另一方面也会限制了数据开放的深入程度。
发明内容
本发明的目的在于提出一种可以有效消除上述传统方法局限性的数据自治开放模式下的隐私保护系统。
本发明提出的数据自治开放模式下的隐私保护系统,根据数据自治开放模式的特点,采用层次化结构,采取基于差分隐私的数据合成,能够实现满足差分隐私的数据发布与数据访问,以及防范数据拼图的攻击行为,为数据开放提供有力保障,推动数据资源的开放利用。
本发明提出的数据自治开放模式下的隐私保护系统,包括数据层、机制层、合成层和接口层;其中:
所述数据层,包括数据开放方提供的原始数据以及相应的隐私需求参数设定;
所述机制层,用于实现差分隐私的噪声引入;机制层包括拉普拉斯机制(Laplace机制)和指数机制等实现差分隐私的噪声引入的基本机制。这两种机制可以适用于不同的应用场景。其中,拉普拉斯机制用于对数值型数据进行处理,指数机制则主要针对非数值型数据进行处理。此外,在机制层中还包括并行组合机制和序列组合机制。这两种组合机制分别通过并行组合以及串行组合的方式,综合调用系统中所实现的噪声引入的基本机制(拉普拉斯机制和指数机制),实现复杂的噪声引入(拉普拉斯机制、指数机制以及相应的并行组合与序列组合参考文献:Cynthia Dwork, Aaron Roth. The Algorithmic Foundations ofDifferential Privacy. Foundations and Trends in Theoretical Computer Science,Vol. 9, No. 3-4, 2014: 211-407)。
所述合成层,用于进行基于差分隐私的数据合成;其通过调用机制层中所涉及的多种噪声引入机制,以保证上层的数据合成满足差分隐私,防止敏感数据的泄露,同时也减少噪声带来的误差,使得数据具有较高的可用性。
所述接口层,负责提供隐私保护的数据发布与访问接口。它通过调用合成层的相应功能,将满足差分隐私的合成数据直接对外发布,也可以在合成数据的基础上接受外部访问,以满足数据查询和数据挖掘的应用需求。
本发明中,所述的数据合成是指通过分析原始数据,提取原始数据的近似分布,然后以所提取的数据分布信息为基础,合成满足该分布的新数据。
本发明中,所述的数据拼图的攻击行为是指通过整合在数据访问过程中多次获取的数据片段,推理还原出原始数据的整体。可以由单个攻击者通过拼接在数据访问中多次获取的数据片段来完成,也可以是由多个攻击者共同合作,通过共谋来实现对数据片段的拼接。
附图说明
图1是本发明的系统架构图。
图2是基于差分隐私的数据合成过程图示。
图3是原始数据集样例。
图4是原始数据年龄-学历联合分布情况。
图5是合成数据年龄-学历联合分布情况。
图6是合成数据集样例。
具体实施方式
下面结合附图对本发明的具体实施方式加以说明。
隐私保护系统架构如图1所示,最下层是数据层,包括数据开放方提供的原始数据以及数据开放方根据自身隐私保护需求所做的隐私需求参数设定。原始数据是指未经处理过的数据集,包含数据科学研究者感兴趣的多方面内容。图3给出一个原始数据集的样例,该数据集有1000条数据记录,每条数据记录有年龄和学历作为其属性值。隐私需求参数是根据数据开放方要求,用来评估并定量分析数据隐私保护程度的参数。以差分隐私模型为例,其形式化定义如下(差分隐私的形式化定义参考文献:Cynthia Dwork. Differentialprivacy. In: Proceedings of the 33rd International Colloquium on Automata,Languages, and Programming. Venice, Italy, 2006:1-12):
一个随机化函数K,对其所有可能的输出结果Range(K)的任意子集 S,如果在任意两个邻近数据集D 1 D 2 (其中D 1 D 2 具有相同的属性结构且至多有1个不同的记录)上,K满足如下不等式,则称K满足 ε -差分隐私:
在差分隐私定义中的 ε可以作为隐私需求参数来设置,它可以用来控制特定数据处理方法在邻近数据集上获得相同输出的概率比值,即体现了K所能提供的隐私保护水平。
机制层包括拉普拉斯机制(Laplace机制)和指数机制等实现差分隐私的噪声引入的基本机制。这两种机制可以适用于不同的应用场景。其中,拉普拉斯机制能够对数值型数据较好地处理,指数机制则主要针对非数值型数据。此外,在机制层中还包括并行组合机制和序列组合机制。这两种组合机制分别通过并行组合以及串行组合的方式,综合调用系统中所实现的噪声引入的基本机制(拉普拉斯机制和指数机制),实现复杂的噪声引入。
合成层可实现基于差分隐私的数据合成,其通过调用其下面的机制层中所涉及的多种噪声引入机制,以保证上层的数据合成方法满足差分隐私,防止敏感数据的泄露,同时也减少噪声带来的误差,使得数据具有较高的可用性。
接口层负责提供隐私保护的数据发布与访问接口。它通过调用合成层的相应功能,可以将满足差分隐私的合成数据直接对外发布,或者也可以在合成数据的基础上接受外部访问,以满足数据查询和数据挖掘的应用需求。
在面向隐私保护的数据管理中,需要防范“数据拼图”所造成对数据整体隐私的侵犯。数据拼图是指数据使用者能够通过整合在数据访问过程中多次获取的数据片段,推理还原出原始数据的整体。数据拼图可以由单个使用者通过拼接在数据访问中多次获取的数据片段来完成,也可能是由多个使用者共同合作,通过共谋来实现对数据片段的拼接。在数据自治开放模式下,一个或多个恶意的攻击者可以通过数据拼图这种攻击手段,未经数据发布方授权就获取被保护的数据对象,从而构成对数据整体隐私的侵犯。
针对上述情况,本发明在数据开放自治模式下实现面向隐私保护的数据管理时,采取基于差分隐私的数据合成,结合图2所示,具体过程如下:
(1)根据隐私保护的需求,预先设定相应的隐私需求参数ε,以便在数据合成的过程中及时进行相应的隐私保护处理及检查,保障所合成的新数据能够满足差分隐私的要求。
(2)假设提取数据分布的过程记为f,对于给定的原始数据D,通过分析提取其数据分布f(D)(从效率的角度出发,提取的可以是原始数据的近似分布)。在从原始数据D提取其数据分布f(D)的过程中,通过差分隐私机制引入适当的噪声Δf(ε),得到f’(D) = f(D) +Δf(ε)。
(3)根据所提取的数据分布信息f’(D),以此为基础合成满足该分布的新数据D’。假设合成数据的生成过程记为g,在合成新数据D’的过程中,也通过差分隐私机制引入适当的噪声Δd(ε),使得D’=g(f’(D))+ Δd(ε)。
下面结合图3的原始数据样例,说明具体实施过程:设定相应的隐私需求参数ε=0.8,数据分布以直方图的形式表达,图4是原始数据属性的年龄-学历联合分布情况。图5是依据设定的隐私需求参数,通过差分隐私机制引入适当噪声后的数据属性的年龄-学历联合分布情况。图6是根据图5的数据分布信息,通过差分隐私机制引入适当噪声后,所合成的新数据集。
本发明提出的在数据开放自治模式下,采取基于差分隐私的数据合成,来实现隐私数据的发布与访问,攻击者即使通过数据拼图手段所能获取也仅是满足差分隐私的合成数据,因而攻击者并不能实现对原始数据的攫取,继而可以保障对数据整体隐私和稀缺性的有效保护。

Claims (2)

1.一种数据自治开放模式下的隐私保护系统,其特征在于,采用层次化结构,包括数据层、机制层、合成层和接口层;其中:
所述数据层,包括数据开放方提供的原始数据以及相应的隐私需求参数设定;
所述机制层,用于实现差分隐私的噪声引入;包括实现差分隐私的噪声引入的基本机制:拉普拉斯机制和指数机制;其中,拉普拉斯机制用于对数值型数据进行处理,指数机制主要针对非数值型数据进行处理;此外,还包括并行组合机制和序列组合机制;这两种组合机制分别通过并行组合以及串行组合的方式,综合调用系统中所实现的噪声引入的拉普拉斯机制和指数机制,实现复杂的噪声引入;
所述合成层,用于进行基于差分隐私的数据合成;其通过调用机制层中所涉及的多种噪声引入机制,以保证上层的数据合成满足差分隐私,防止敏感数据的泄露,同时也减少噪声带来的误差,使得数据具有较高的可用性;
所述接口层,负责提供隐私保护的数据发布与访问接口;它通过调用合成层的相应功能,将满足差分隐私的合成数据直接对外发布,或者在合成数据的基础上接受外部访问,以满足数据查询和数据挖掘的应用需求;
其中,所述的数据合成是指通过分析原始数据,提取原始数据的近似分布,然后以所提取的数据分布信息为基础,合成满足该分布的新数据。
2.根据权利要求1所述的数据自治开放模式下的隐私保护系统,其特征在于,所述基于差分隐私的数据合成,具体过程如下:
(1)根据隐私保护的需求,预先设定相应的隐私需求参数ε;
(2)假设提取数据分布的过程记为f,对于给定的原始数据D,通过分析提取其数据分布f(D);在从原始数据D提取其数据分布f(D)的过程中,通过差分隐私机制引入适当的噪声Δf(ε),得到f’(D) = f(D) + Δf(ε);
(3)根据所提取的数据分布信息f’(D),以此为基础合成满足该分布的新数据D’;假设合成数据的生成过程记为g,在合成新数据D’的过程中,也通过差分隐私机制引入适当的噪声Δd(ε),使得D’=g(f’(D))+ Δd(ε)。
CN201711096849.3A 2017-11-09 2017-11-09 一种数据自治开放模式下的隐私保护系统 Active CN107832630B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711096849.3A CN107832630B (zh) 2017-11-09 2017-11-09 一种数据自治开放模式下的隐私保护系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711096849.3A CN107832630B (zh) 2017-11-09 2017-11-09 一种数据自治开放模式下的隐私保护系统

Publications (2)

Publication Number Publication Date
CN107832630A true CN107832630A (zh) 2018-03-23
CN107832630B CN107832630B (zh) 2021-01-26

Family

ID=61654856

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711096849.3A Active CN107832630B (zh) 2017-11-09 2017-11-09 一种数据自治开放模式下的隐私保护系统

Country Status (1)

Country Link
CN (1) CN107832630B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188567A (zh) * 2019-05-23 2019-08-30 复旦大学 一种防范敏感数据拼图的关联访问控制方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809408A (zh) * 2015-05-08 2015-07-29 中国科学技术大学 一种基于差分隐私的直方图发布方法
CN105512247A (zh) * 2015-11-30 2016-04-20 上海交通大学 基于一致性特征的非交互式差分隐私发布模型的优化方法
CN106991335A (zh) * 2017-02-20 2017-07-28 南京邮电大学 一种基于差分隐私保护的数据发布方法
EP3217335A1 (en) * 2016-03-11 2017-09-13 Deutsche Telekom AG Method and system for generating a training model for fabricating synthetic data and for fabricating synthetic data

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809408A (zh) * 2015-05-08 2015-07-29 中国科学技术大学 一种基于差分隐私的直方图发布方法
CN105512247A (zh) * 2015-11-30 2016-04-20 上海交通大学 基于一致性特征的非交互式差分隐私发布模型的优化方法
EP3217335A1 (en) * 2016-03-11 2017-09-13 Deutsche Telekom AG Method and system for generating a training model for fabricating synthetic data and for fabricating synthetic data
CN106991335A (zh) * 2017-02-20 2017-07-28 南京邮电大学 一种基于差分隐私保护的数据发布方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CYNTHIA DWORK ET AL: ""The Algorithmic Foundations of Differential Privacy"", 《FOUNDATIONS AND TRENDS IN THEORETICAL COMPUTER SCIENCE》 *
张啸剑 等: ""面向数据发布和分析的差分隐私保护"", 《计算机学报》 *
熊平 等: ""差分隐私保护及其应用"", 《计算机学报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188567A (zh) * 2019-05-23 2019-08-30 复旦大学 一种防范敏感数据拼图的关联访问控制方法
CN110188567B (zh) * 2019-05-23 2022-12-20 复旦大学 一种防范敏感数据拼图的关联访问控制方法

Also Published As

Publication number Publication date
CN107832630B (zh) 2021-01-26

Similar Documents

Publication Publication Date Title
Park et al. Parameter-free effective field theory calculation for the solar proton-fusion and hep processes
JP2022537300A (ja) 個人のヘルスケアデータを用いて計算するためのシステムおよび方法
TW201224838A (en) Method for enforcing resource access control in computer systems
CN109997143A (zh) 敏感数据的安全共享
CN103577323A (zh) 基于动态关键指令序列胎记的软件抄袭检测方法
JP2017518596A (ja) ゲノム情報科学サービス
Al Hwaitat et al. A new blockchain-based authentication framework for secure IoT networks
Ambika A reliable blockchain-based image encryption scheme for IIoT networks
Weise et al. OSSDIP: open source secure data infrastructure and processes supporting data visiting
CN107832630A (zh) 一种数据自治开放模式下的隐私保护系统
Jayaraman et al. Secure Biomedical Document Protection Framework to Ensure Privacy Through Blockchain
Alebrahim et al. Optimizing functional and quality requirements according to stakeholders’ goals
KR102651688B1 (ko) 허가형 블록체인에 기반하여 암 검진 데이터를 공유하기 위한 방법 및 장치
Karaarslan et al. Decentralized solutions for data collection and privacy in healthcare
Asvadishirehjini et al. A Framework for Privacy-Preserving Genomic Data Analysis Using Trusted Execution Environments
Marcinko Dictionary of health information technology and security
Elngar et al. Data protection and privacy in healthcare: research and innovations
Shukla et al. Investigating the Role of Artificial Intelligence in Building Smart Contact on Block-Chain
Zhou et al. Implementation and performance of face recognition payment system securely encrypted by sm4 algorithm
Kwok et al. Prediction model on disease recurrence for low risk resected stage I lung adenocarcinoma
Tran Alice at Seven
Baker et al. Digital evolution: History, challenges and future directions for the digital and multimedia sciences section
De la Torre et al. Analysis of Security in Big Data Related to Healthcare
Miya et al. Healthcare Transformation Using Blockchain Technology in the Era of Society 5.0
Jayagopalan et al. Intelligent privacy preserving deep learning model for securing IoT healthcare system in cloud storage

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant