CN108959958A - 一种关联大数据的隐私保护方法及系统 - Google Patents
一种关联大数据的隐私保护方法及系统 Download PDFInfo
- Publication number
- CN108959958A CN108959958A CN201810615122.XA CN201810615122A CN108959958A CN 108959958 A CN108959958 A CN 108959958A CN 201810615122 A CN201810615122 A CN 201810615122A CN 108959958 A CN108959958 A CN 108959958A
- Authority
- CN
- China
- Prior art keywords
- data
- secret protection
- block
- difference
- privacy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Databases & Information Systems (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Storage Device Security (AREA)
Abstract
本发明公开了一种大数据的隐私保护方法,包括:通过机器学习构建k‑means聚类算法的k相关记录差分隐私保护模型;通过隐私机制和查询函数构建线性回归r‑相关块差分隐私保护模型;根据r‑相关块差分隐私保护模型将大数据划分为独立数据块;根据查询函数计算独立数据块的敏感度,根据k‑相关记录差分隐私保护模型对独立数据块进行差分隐私保护。本发明还公开了一种大数据隐私保护方法的系统,包括:k相关记录差分隐私保护模型构建模块;r‑相关块差分隐私保护模型构建模块;独立数据块划分模块;独立数据块差分隐私保护模块,用于根据查询函数计算独立数据块的敏感度,根据k‑相关记录差分隐私保护模型对独立数据块进行差分隐私保护。
Description
技术领域
本发明涉及大数据技术领域,特别是指一种关联大数据的隐私保护方法及系统。
背景技术
大数据是信息技术发展的又一里程碑,被称为科学研究的“第四范式”,具备科学的理论基础和先进的技术手段,从提出之日起就引领时代发展。经过几年的快速发展,大数据被广泛应用在科技、金融、交通、教育、医疗卫生等各个领域,为推动经济发展和服务人类社会发挥了巨大作用创造了巨大价值。
随着大数据技术的发展和广泛应用,数据采集和数据挖掘已成为普遍现象,一方面,通过挖掘隐藏在数据背后的潜在价值有利于促进社会发展,另一方面,过度的数据挖掘和缺乏有效的数据保护,也导致了数据拥有者大量隐私或敏感数据泄露的问题。如何在不影响大数据分析研究、共享使用的前提下,使得数据和隐私安全能够得到有效保护,成为目前亟待研究和解决的热点问题。
差分隐私保护具有完备的数学理论基础,能够提供强健的隐私保护,被认为是目前最先进的隐私保护技术。但是在实际应用中,特别是在大数据应用场景中,大量数据之间往往存在着较强的耦合性或相关性,称这些数据为相关数据。现有的差分隐私保护方法在数据集上会使攻击者得到更多的背景知识,增加了隐私泄露的风险。因此,如何利用差分隐私方法解决相关数据的隐私保护问题,对研究和解决关联大数据隐私安全问题具有重要的现实意义。
发明内容
有鉴于此,本发明的目的在于提出一种关联大数据的隐私保护方法及系统,以更好地保护大数据的隐私安全。
基于上述目的本发明提供的一种关联大数据的隐私保护方法,包括:
通过机器学习和最大信息系数构建关联大数据的因果关系模型;
通过k-相邻数据集构建k-相关记录差分隐私保护模型;
提供相关敏感度概念,通过所述因果关系模型计算所述k-相邻数据集的相关敏感度,再利用means-Laplace机制实现k-相关记录差分隐私保护;
利用最大信息系数-K-Means算法将所述关联大数据进行r-块划分,得到多个相互独立的数据子块;
根据查询函数计算所述数据子块的相关敏感度,对每个数据子块进行所述k-相关记录差分隐私保护;
根据差分隐私组合性质,对所述关联大数据集进行r-相关块差分隐私的保护。
在其中一个实施例中,所述k-相关记录差分隐私保护模型包括:
其中,D1为大数据集,D2为大数据集D1中k条记录发生改变所生成,1≤k≤l,l为大数据集D1中的记录条数,为隐私机制,f为查询函数,Pr为概率分布, 为实数集,∈为隐私预算。
在其中一个实施例中,所述隐私机制满足f为查询函数,e为随机噪声,‖·‖1为1范数。
在其中一个实施例中,D1和D2为关联大数据集,满足|D1 ΔD2|=k,且1≤k≤l,大数据集D1中具有n个数据,l条相关记录,D2为大数据集D1中k条记录发生改变所生成。
在其中一个实施例中,所述因果关系模型为经过回归分析后构建的神经网络模型。
在其中一个实施例中,所述r-相关块差分隐私保护包括:
为待发布数据集B的隐私机制,Pr为概率分布,f为查询函数,Bj和B-j为邻接数据集, 为实数集,∈为隐私预算。
在其中一个实施例中,所述待发布数据集B中的数据块Di满足表示数据块Di与调整其第j条记录后生成的数据块相差条记录, 为数据块Di的第j条记录,为调整数据块Di的第j条记录生成的数据块,中不含第j条记录。
在其中一个实施例中,所述待发布数据集B满足, Ui∈(-0.5,0.5]为随机数, n为运算次数。
在其中一个实施例中,所述相关敏感度概念为:
其中,CS为相关敏感度,为数据集,表示待发布数据集的第i个数据块的任意一条记录j,为调整的第j条记录,与为邻接数据集,f为查询函数。v(xj)表示记录xj的取值,函数g表示xj与其相关记录之间的依赖关系。
本发明还提供一种应用于上述的关联大数据的隐私保护方法的系统,包括:
因果关系模型构建模块,用于通过机器学习和最大信息系数构建关联大数据的因果关系模型;
k相关记录差分隐私保护模型构建模块,用于通过k-相邻数据集构建k-相关记录差分隐私保护模型;
k-相关记录差分隐私保护实现模块,用于提供相关敏感度概念,通过所述因果关系模型计算所述k-相邻数据集的相关敏感度,再利用means-Laplace机制实现k-相关记录差分隐私保护;
数据子块划分模块,用于利用最大信息系数-K-Means算法将所述关联大数据进行r-块划分,得到多个相互独立的数据子块;
数据子块的k-相关记录差分隐私模块,用于根据查询函数计算所述数据子块的相关敏感度,对每个数据子块进行所述k-相关记录差分隐私;
r-相关块差分隐私模块,用于根据差分隐私组合性质,对所述关联大数据集进行r-相关块差分隐私的保护。
从上面所述可以看出,本发明提供的关联大数据的隐私保护方法及系统,通过构建k-相关记录差分隐私保护模型和r-相关块差分隐私保护,将关联大数据进行r-块划分,得到多个独立的数据子块,并通过查询函数实现数据子块对敏感度的精确计算,从而对数据子块进行k-相关记录差分隐私,再通过差分隐私组合性质,对关联大数据进行r-相关块差分隐私的保护,从而实现对关联大数据的隐私保护。
附图说明
图1为本发明实施例的关联大数据的隐私保护方法的流程图;
图2为本发明实施例的r-相关块差分隐私系统模型;
图3为本发明实施例的不同城市ID间MIC值分布情况示意图;
图4为本发明实施例的部分城市连续696小时pm2.5分布情况示意图;
图5为本发明实施例的神经网络模型图;
图6为本发明实施例的学习性能实例;
图7为不同敏感度计算方法隐私保护性能对比分析图一;
图8为不同敏感度计算方法隐私保护性能对比分析图二;
图9为不同敏感度计算方法隐私保护性能对比分析图三;
图10为不同敏感度计算方法隐私保护性能对比分析图四;
图11为不同方法隐私保护性能随数据量的变化图;
图12为∈=0.05时,不同方法隐私保护性能随数据量的变化图;
图13为∈=0.1时,不同方法隐私保护性能随数据量的变化图;
图14为∈=0.3时,不同方法隐私保护性能随数据量的变化图;
图15为∈=0.5时,不同方法隐私保护性能随数据量的变化图;
图16为∈=0.7时,不同方法隐私保护性能随数据量的变化图;
图17为∈=0.9时,不同方法隐私保护性能随数据量的变化图;
图18为∈=1时,不同方法隐私保护性能随数据量的变化图;
图19为r=10时,不同块划分参数r下的隐私保护性能示意图;
图20为r=20时,不同块划分参数r下的隐私保护性能示意图;
图21为r=30时,不同块划分参数r下的隐私保护性能示意图;
图22为r=40时,不同块划分参数r下的隐私保护性能示意图;
图23为r=50时,不同块划分参数r下的隐私保护性能示意图;
图24为r=60时,不同块划分参数r下的隐私保护性能示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
请参阅图1,本发明提供一种大数据的隐私保护方法,包括:
S100,通过机器学习和最大信息系数构建关联大数据的因果关系模型;
S200,通过k-相邻数据集构建k-相关记录差分隐私保护模型;
S300,提供相关敏感度概念,通过所述因果关系模型计算所述k-相邻数据集的相关敏感度,再利用means-Laplace机制实现k-相关记录差分隐私保护;
S400,利用最大信息系数-K-Means算法将所述关联大数据进行r-块划分,得到多个相互独立的数据子块;
S500,根据查询函数计算所述数据子块的相关敏感度,对每个数据子块进行所述k-相关记录差分隐私;
S600,根据差分隐私组合性质,对所述关联大数据集进行r-相关块差分隐私的保护。
本发明提供的关联大数据的隐私保护方法及系统,通过构建k-相关记录差分隐私保护模型和r-相关块差分隐私保护,将关联大数据进行r-块划分,得到多个独立的数据子块,并通过查询函数实现数据子块对敏感度的精确计算,从而对数据子块进行k-相关记录差分隐私,再通过差分隐私组合性质,对关联大数据进行r-相关块差分隐私的保护,从而实现对关联大数据的隐私保护。
步骤S100中,所述因果关系模型为经过回归分析后构建的神经网络模型。具体地,神经网络模型是通过神经网络机器学习和最大信息系数所获得的相关记录模型。应当说明的是,神经网络学习为一种常规的分析工具,是基于机器学习进行的一种回归分析,因此,不进行详细的说明。
最大信息系数的算法基于信息论的互信息理论和网格划分思想,通过计算由两个变量生成的散点在不同网格的概率分布求得所有不同网格划分的最大互信息量,经过归一化处理后得到特征矩阵。
本步骤中,最大信息系数如式(1)所示:
其中,MIC(Maximal InformationCoefficient)为最大信息系数,D为大数据集,X、Y为该大数据集D中的两个随机变量,n为X、Y构成的散点数,p,q分别为大数据集D中网格的列划分和行划分,M(X,Y|D)p,q为特征矩阵。
进一步地,(p*q)<B(n),B(n)=n0.6。特征矩阵满足 I*(X,Y,D,p,q)为随机变量X和Y在网格第p列和第q行的最大互信息量。
步骤S200中,字母k代表的是数值,具体是指关联大数据中的具有相互关联性的记录的数值。
所述k-相关记录差分隐私保护模型如式(3)所示:
其中,CRDP(k-相关记录差分隐私),D1为大数据集,D2为大数据集D1中k条记录发生改变所生成,1≤k≤l,l为大数据集D1中的记录条数,为隐私机制,f为查询函数,Pr为概率分布, 为实数集,∈为隐私预算。
具体地,所述隐私机制满足式(4),
f为查询函数,e为随机噪声,
GS(全局敏感度)满足式(3),‖·‖1为1范数。可以看出,对于k-相关记录差分隐私保护模型,随机噪声e的实现,实际上是通过LaplaceMechanism(拉普拉斯机制)来实现的。噪声的大小,主要是由隐私预算∈和全局敏感度GS这两个参数来控制的,并与∈成反比与GS成正比。隐私预算∈可以人为设定,全局敏感度GS由查询函数f决定。
具体地,D1和D2为关联大数据集,满足|D1 ΔD2|=k,且1≤k≤l。大数据集D1中具有n个数据,l条相关记录。D2为大数据集D1中k条记录发生改变所生成。
步骤S300中,相关敏感度概念定义如式(6)所示:
其中,CS为相关敏感度,为数据集,表示待发布数据集的第i个数据块的任意一条记录j,为调整的记录j所得,与为邻接数据集,f为查询函数。v(xj)表示记录xj的取值,函数g表示xj与其相关记录之间的依赖关系。
步骤S400中,最大信息系数-K-Means算法可以简写为MIC-K-Means算法。r代表具有相互关联性的块的个数,单个块内的所有数据记录具有相关性。
该步骤具体可以包括:
S410,计算所述大数据集的最大信息系数;
S420,从所述关联大数据中抽取数据,生成待发布数据集,根据所述最大信息系数对所述待发布数据集进行聚类划分,划分为所述独立数据子块。
步骤S420中,待发布数据集为B。根据步骤S310所得到的最大信息系数值,对待发布数据集B进行聚类划分,将其划分为多个相互独立的数据块Di,包括D1,D2…..Dk,满足B={D1,D2,…Dk},且D1∪D2∪…∪Dk=D。此处,定义待发布数据集B为大数据集D的一个k-块划分。应当说明的是,每个单独的数据块Di中的数据记录可能相关也可能不相关。
所述待发布数据集B满足,
其中,为隐私机制,f为查询函数,表示随机噪声,GS为全局敏感度,∈为隐私预算,n为运算次数。此处,全局敏感度的机制与前述的k-相关记录隐私中的相关敏感度一样,因此不再重复说明。
进一步地,式8简称为means-Laplace机制,其中,sgn为返回函数,Ui∈(-0.5,0.5]为随机数。
步骤S500中,所述r-相关块差分隐私保护如式(9)所示:
其中,CBDP(r-相关块差分隐私),为待发布数据集B的隐私机制,Pr为概率分布,f为查询函数,Bj和B-j为邻接数据集, 为实数集,∈为隐私预算。
具体地,所述待发布数据集B中的数据块Di满足表示数据块Di与调整其第j条记录后生成的数据块相差条记录, 为数据块Di的第j条记录,为调整数据块Di的第j条记录生成的数据块,中不含第j条记录。
对于待发布数据集的具体公式定义,与前述步骤S420中定义相同,故此处不再赘述。
可以看出,对于r-相关块差分隐私保护模型,噪声的大小,主要是由U,GS和∈这三个参数来控制的,U控制噪声的随机性,GS和∈控制噪声的大小,噪声大小与GS成正比,与∈成反比。通过means-Laplace机制可以实现噪声的准确度。
本发明还提供一种应用于上述的关联大数据的隐私保护方法的系统,包括:
因果关系模型构建模块,用于通过机器学习和最大信息系数构建关联大数据的因果关系模型;
k相关记录差分隐私保护模型构建模块,用于通过k-相邻数据集构建k-相关记录差分隐私保护模型;
k-相关记录差分隐私保护实现模块,用于提供相关敏感度概念,通过所述因果关系模型计算所述k-相邻数据集的相关敏感度,再利用means-Laplace机制实现k-相关记录差分隐私保护;
数据子块划分模块,用于利用最大信息系数-K-Means算法将所述关联大数据进行r-块划分,得到多个相互独立的数据子块;
数据子块的k-相关记录差分隐私模块,用于根据查询函数计算所述数据子块的相关敏感度,对每个数据子块进行所述k-相关记录差分隐私;
r-相关块差分隐私模块,用于根据差分隐私组合性质,对所述关联大数据集进行r-相关块差分隐私的保护。
本发明提供的大数据的隐私保护方法及系统,可用于对全国不同城市的空气质量的数据等的隐私保护。
以下提供具体的实施例,以全国空气质量数据来对本发明的技术方案进行更为详细和直观的说明。
实施例1
数据:选择全国空气质量数据作为数据集。原始数据集按天为单位保存,每个数据文件包含最多360条记录(按0-23时刻对应的15项空气指标记录)和193个属性(190个城市、空气指标、日期和小时)。选择2014年5月13日至2014年7月31日(除去缺失数据)共71天的原始数据进行重新配置:剔除原始数据的空记录后,保留除PM2.5_24h和PM10_24h的其余13项空气指标,按照1-190的城市ID(代码)和0-23时刻存储数据,每条记录存储每个城市71天同一时刻的13项空气指标的时间序列,最后生成包含4488条记录、每条记录长度为184的实验数据集。
生成的实验数据集包含着不同城市ID数据记录的潜在相关性,利用MIC来计算不同ID的数据相关性,判读记录是否相关的阈值设为t=0.4,当MIC≥t时认为相关,反之则不相关。
设备:利用Matlab 2016a仿真环境编译和实现,实验平台为拥有8核处理器:Intel(R)Core(TM)i7-6700CPU@3.4GHz,RAM:16GB,64位Win7操作系统的PC机。
分析:1)数据相关性分析
对实验数据集的190个城市ID数据相关性进行两两分析判断,每组分别提取4368个样本点计算MIC值,其结果分布如图3所示。结果显示MIC值具有明显的对称性。按照上文设定阈值t=0.4,最终计算得到MIC≥t的共1238组(图中圆圈标记部分,包含190个自相关组),占MIC值总数的3.4%,平均每个ID的数据记录存在约7条与之相关的其它ID数据记录。
选取部分城市的pm2.5数据,通过研究持续时间下的数据走势,进一步研究数据间是否存在因果关系。所选择城市数据记录的MIC值如表1所示。
表1部分城市数据记录的MIC值
对每个城市连续696小时pm2.5值的变化做仿真分析,其连续分布情况如图4所示。可以观测到,当MIC≥0.4时,pm2.5的值随着时间具有相近的变化规律,说明数据间存在明显的相关性;反之pm2.5值随时间具有明显不同的变化规律,数据间不存在相关性。进一步考查局部特征(如图中右上角方框部分),从17小时到30小时间,保定、石家庄和邢台三个城市的pm2.5值较为接近,同时,观察pm2.5到达峰值的时刻,保定先于石家庄而石家庄先于邢台,可以断定三个城市的pm2.5数据间存在因果关系(一个城市pm2.5值的会受临近城市的影响),这与三个城市所处地理位置和大气流动的现实情况相吻合。
为探究相关数据间的因果关系,本文采用Matlab封装的Neural Net Fitting工具,通过机器学习来得到相应的因果关系模型。神经网络基本参数设置如表2所示。
表2神经网络基本参数设置
所生成的网络模型和性能实例分别由图5和图6所示,总的性能指标设定为R≥0.99。通过机器学习共获得1048个相关数据因果关系的神经网络模型。
2)隐私保护性能对比分析
采用现有的r-method方法、k-method方法来对比分析本文所提新方法l-metho的性能优劣。对于r-method,相关系数使用MIC值,阈值设定为t=0.4;性能评估函数采用平均绝对误差(MAE);设定隐私参数∈∈[0.1,1];构造4个样本数据集作为实验数据,并为每个数据集构造包含10000个随机线性查询的查询函数集f。
按照敏感度计算方法的不同,考查不同敏感度下的隐私保护性能,仿真结果如图7至10所示。
从对4个数据集的仿真结果来看,l-method的隐私保护性能明显优于k-method和r-method,并且对于不同的数据集,采用l-method,MAE值的变化区间相对稳定,而采用k-method和r-method,MAE值的区间会产生较大的变化。特别是图9,当∈=0.4时,k-method的MAE=1.7807,r-method的MAE=1.1963,l-method的MAE=0.1663,较前两种方法,l-method的MAE性能分别提升970.7%和619.3%。这一结果说明,前两种方法是对数据间因果关系的预判,并不能准确反映数据之间的相互影响,会产生较大的误差,而由于l-method除了判断数据间是否存在相关性外,还通过机器学习来分析存在怎样的因果关系,并将结果映射在查询函数的敏感度上,因此在相关数据的差分隐私应用上更具性能优势。
隐私预算∈是影响差分隐私保护效果的重要参数,∈值越小,提供的隐私保护强度越高,相应的数据可用性越差,反之,隐私保护强度越弱,数据可用性也越好。从图7至10可以观测到,l-method隐私保护性能的提升与∈参数相关,并且∈值越小,性能提升越明显。以图7为例,假设当MAE=0.5时,在不影响数据正常使用的前提下,隐私保护强度达到最高,此时3种方法的∈参数取值范围如表3所示。
表3达到固定阈值时三种方法的∈参数可用取值范围
由表3可知,当MAE达到固定阈值时,与前两种方法相比较,l-method的∈参数的可用取值区间更大,即在相同的条件下,l-method能够提供更多的差分隐私数据查询服务。例如如果每提供一次查询服务消耗的隐私预算Δ∈=0.1,l-method可以提供10次查询服务,而k-method和r-method分别只能提供7次和8次查询服务。由此可见l-method性能更优。
对以上三种方法的隐私保护性能随数据量的变化做对比分析,仿真结果如图11-18所示。
图11为忽略数据相关和考虑数据相关隐私保护性能随数据量整体变化对比,图12-18为不同隐私参数下隐私保护性能随数据量的变化趋势对比。从图11可以看出,当忽略数据相关性时,隐私保护性能随数据量的增加基本趋于一致,证明隐私保护性能确实与数据量无关;当数据相关时,隐私保护性能会随数据量的改变出现震荡变化,但整体上仍趋于一致,说明隐私保护性能与数据总量无关而与相关数据量有关。在不同的隐私预算参数∈作用下,可以明显的观察到,由于k-method与r-method解决问题的思路相近,因此曲线变化趋势基本一致,中间出现了大幅震荡;而l-method采用更精确衡量相关性的方法,因此变化曲线基本趋于稳定,没有像k-method和r-method的大幅震荡。从MAE值来看,l-method要优于k-method和r-method,特别是在震荡点位置,l-method的性能优势更加明显。以图15为例,最大震荡点出现在数据量=137位置,此时k-method的MAE=1.2442,r-method的MAE=0.6051,l-method的MAE=0.295,较前两种方法l-method性能提升分别为321.8%和105.1%。
3)隐私保护性能与数据块划分
此部分仅对分块参数r对隐私保护性能的影响做分析。实验选取包含4488条记录的数据集,通过设置不同r参数进行块划分,对每个参数下的划分子集分别实施k-相关记录差分隐私,考查平均性能r-MAE,实验结果如图19至24所示。
分析图19至24的结果可知,当参数r值较小时,分块后的数据子集之间存在较大的数据相关性,数据相关性的漏判率较高,导致r-MAE值较大,隐私保护性能较差;随着r值的增大,具有相关性的数据被划分到同一数据块的概率提高,r-MAE值在逐渐减小,隐私保护性能随之提高。当r≥50后,数据块之间的数据相关性减小到较小值,r-MAE值趋于稳定,隐私保护性能达到最优。由此可见参数r影响大数据的相关差分隐私保护性能,但是分块越多势必会带来更大的时间开销,因此当隐私保护性能在可接受范围时,可以通过调整参数r,来均衡时间开销和隐私保护性能。
本发明提出的k-相关记录差分隐私保护模型,利用最大信息系数和机器学习算法度量和获取相关数据的依赖关系,以提高查询函数敏感度的准确度,有效解决欠噪声和过噪声引入的问题。提出了means-Laplace差分隐私实现机制,提高了噪声引入的准确度。应对大数据问题,提出了r-相关块差分隐私,实现了对大数据的降体量处理和相关差分隐私保护的并行计算,可以更有效地解决大数据隐私问题。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明它们没有在细节中提供。
尽管已经结合了本发明的具体实施例对本发明进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。
本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本发明的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种关联大数据的隐私保护方法,其特征在于,包括:
通过机器学习和最大信息系数构建关联大数据的因果关系模型;
通过k-相邻数据集构建k-相关记录差分隐私保护模型;
提供相关敏感度概念,通过所述因果关系模型计算所述k-相邻数据集的相关敏感度,再利用means-Laplace机制实现k-相关记录差分隐私保护;
利用最大信息系数-K-Means算法将所述关联大数据进行r-块划分,得到多个相互独立的数据子块;
根据查询函数计算所述数据子块的相关敏感度,对每个数据子块进行所述k-相关记录差分隐私保护;
根据差分隐私组合性质,对所述关联大数据集进行r-相关块差分隐私的保护。
2.根据权利要求1所述的关联大数据的隐私保护方法,其特征在于,所述k-相关记录差分隐私保护模型包括:
其中,D1为大数据集,D2为大数据集D1中k条记录发生改变所生成,1≤k≤l,l为大数据集D1中的记录条数,为隐私机制,f为查询函数,Pr为概率分布, 为实数集,∈为隐私预算。
3.根据权利要求2所述的关联大数据的隐私保护方法,其特征在于,所述隐私机制满足f为查询函数,e为随机噪声,‖·‖1为1范数。
4.根据权利要求2所述的关联大数据的隐私保护方法,其特征在于,D1和D2为关联大数据集,满足|D1ΔD2|=k,且1≤k≤l,大数据集D1中具有n个数据,l条相关记录,D2为大数据集D1中k条记录发生改变所生成。
5.根据权利要求1所述的关联大数据的隐私保护方法,其特征在于,所述因果关系模型为经过回归分析后构建的神经网络模型。
6.根据权利要求1所述的关联大数据的隐私保护方法,其特征在于,所述r-相关块差分隐私保护包括:
为待发布数据集B的隐私机制,Pr为概率分布,f为查询函数,Bj和B-j为邻接数据集, 为实数集,∈为隐私预算。
7.根据权利要求6所述的关联大数据的隐私保护方法,其特征在于,所述待发布数据集B中的数据块Di满足表示数据块Di与调整其第j条记录后生成的数据块相差ri j条记录,1≤ri j≤|Di|,为数据块Di的第j条记录,为调整数据块Di的第j条记录生成的数据块,中不含第j条记录。
8.根据权利要求6所述的关联大数据的隐私保护方法,其特征在于,所述待发布数据集B满足,为随机数,
n为运算次数。
9.根据权利要求1所述的关联大数据的隐私保护方法,其特征在于,所述相关敏感度概念为:
其中,CS为相关敏感度,为数据集,表示待发布数据集的第i个数据块的任意一条记录j,为调整的第j记录,与为邻接数据集,f为查询函数,v(xj)表示记录xj的取值,函数g表示xj与其相关记录之间的依赖关系。
10.一种应用于权利要求1至9任一项所述的关联大数据的隐私保护方法的系统,其特征在于,包括:
因果关系模型构建模块,用于通过机器学习和最大信息系数构建关联大数据的因果关系模型;
k相关记录差分隐私保护模型构建模块,用于通过k-相邻数据集构建k-相关记录差分隐私保护模型;
k-相关记录差分隐私保护实现模块,用于提供相关敏感度概念,通过所述因果关系模型计算所述k-相邻数据集的相关敏感度,再利用means-Laplace机制实现k-相关记录差分隐私保护;
数据子块划分模块,用于利用最大信息系数-K-Means算法将所述关联大数据进行r-块划分,得到多个相互独立的数据子块;
数据子块的k-相关记录差分隐私模块,用于根据查询函数计算所述数据子块的相关敏感度,对每个数据子块进行所述k-相关记录差分隐私;
r-相关块差分隐私模块,用于根据差分隐私组合性质,对所述关联大数据集进行r-相关块差分隐私的保护。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810615122.XA CN108959958A (zh) | 2018-06-14 | 2018-06-14 | 一种关联大数据的隐私保护方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810615122.XA CN108959958A (zh) | 2018-06-14 | 2018-06-14 | 一种关联大数据的隐私保护方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108959958A true CN108959958A (zh) | 2018-12-07 |
Family
ID=64488995
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810615122.XA Pending CN108959958A (zh) | 2018-06-14 | 2018-06-14 | 一种关联大数据的隐私保护方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108959958A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109829320A (zh) * | 2019-01-14 | 2019-05-31 | 珠海天燕科技有限公司 | 一种信息的处理方法和装置 |
CN110059501A (zh) * | 2019-04-16 | 2019-07-26 | 广州大学 | 一种基于差分隐私的安全外包机器学习方法 |
CN110765491A (zh) * | 2019-11-08 | 2020-02-07 | 国网浙江省电力有限公司信息通信分公司 | 一种去敏感化数据关联关系的保持方法及系统 |
CN111324911A (zh) * | 2020-05-15 | 2020-06-23 | 支付宝(杭州)信息技术有限公司 | 一种隐私数据保护方法、系统及装置 |
WO2021045818A1 (en) * | 2019-09-03 | 2021-03-11 | Microsoft Technology Licensing, Llc | Protecting machine learning models from privacy attacks |
WO2021184346A1 (zh) * | 2020-03-20 | 2021-09-23 | 云图技术有限公司 | 隐私机器学习模型生成、训练方法、装置及电子设备 |
CN116883950A (zh) * | 2023-08-15 | 2023-10-13 | 广东省科学院广州地理研究所 | 基于遥感卫星数据的乡村人居环境动态监测方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104484616A (zh) * | 2014-12-03 | 2015-04-01 | 浪潮电子信息产业股份有限公司 | 一种MapReduce数据处理框架下的隐私保护方法 |
CN106991335A (zh) * | 2017-02-20 | 2017-07-28 | 南京邮电大学 | 一种基于差分隐私保护的数据发布方法 |
CN107423636A (zh) * | 2017-07-06 | 2017-12-01 | 北京航空航天大学 | 一种基于MapReduce的差分隐私K均值聚类方法 |
CN107862014A (zh) * | 2017-10-31 | 2018-03-30 | 陕西师范大学 | 隐私保护加权网络发布数据集的构建方法 |
CN107871087A (zh) * | 2017-11-08 | 2018-04-03 | 广西师范大学 | 分布式环境下高维数据发布的个性化差分隐私保护方法 |
-
2018
- 2018-06-14 CN CN201810615122.XA patent/CN108959958A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104484616A (zh) * | 2014-12-03 | 2015-04-01 | 浪潮电子信息产业股份有限公司 | 一种MapReduce数据处理框架下的隐私保护方法 |
CN106991335A (zh) * | 2017-02-20 | 2017-07-28 | 南京邮电大学 | 一种基于差分隐私保护的数据发布方法 |
CN107423636A (zh) * | 2017-07-06 | 2017-12-01 | 北京航空航天大学 | 一种基于MapReduce的差分隐私K均值聚类方法 |
CN107862014A (zh) * | 2017-10-31 | 2018-03-30 | 陕西师范大学 | 隐私保护加权网络发布数据集的构建方法 |
CN107871087A (zh) * | 2017-11-08 | 2018-04-03 | 广西师范大学 | 分布式环境下高维数据发布的个性化差分隐私保护方法 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109829320A (zh) * | 2019-01-14 | 2019-05-31 | 珠海天燕科技有限公司 | 一种信息的处理方法和装置 |
CN109829320B (zh) * | 2019-01-14 | 2020-12-11 | 珠海天燕科技有限公司 | 一种信息的处理方法和装置 |
CN110059501A (zh) * | 2019-04-16 | 2019-07-26 | 广州大学 | 一种基于差分隐私的安全外包机器学习方法 |
CN110059501B (zh) * | 2019-04-16 | 2021-02-02 | 广州大学 | 一种基于差分隐私的安全外包机器学习方法 |
WO2021045818A1 (en) * | 2019-09-03 | 2021-03-11 | Microsoft Technology Licensing, Llc | Protecting machine learning models from privacy attacks |
US11755743B2 (en) | 2019-09-03 | 2023-09-12 | Microsoft Technology Licensing, Llc | Protecting machine learning models from privacy attacks |
CN110765491A (zh) * | 2019-11-08 | 2020-02-07 | 国网浙江省电力有限公司信息通信分公司 | 一种去敏感化数据关联关系的保持方法及系统 |
CN110765491B (zh) * | 2019-11-08 | 2020-07-17 | 国网浙江省电力有限公司信息通信分公司 | 一种去敏感化数据关联关系的保持方法及系统 |
WO2021184346A1 (zh) * | 2020-03-20 | 2021-09-23 | 云图技术有限公司 | 隐私机器学习模型生成、训练方法、装置及电子设备 |
CN111324911A (zh) * | 2020-05-15 | 2020-06-23 | 支付宝(杭州)信息技术有限公司 | 一种隐私数据保护方法、系统及装置 |
CN116883950A (zh) * | 2023-08-15 | 2023-10-13 | 广东省科学院广州地理研究所 | 基于遥感卫星数据的乡村人居环境动态监测方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108959958A (zh) | 一种关联大数据的隐私保护方法及系统 | |
He et al. | Mining transition rules of cellular automata for simulating urban expansion by using the deep learning techniques | |
Yang et al. | Simulation of landscape spatial layout evolution in rural-urban fringe areas: a case study of Ganjingzi District | |
Zhang et al. | Correlated differential privacy: Feature selection in machine learning | |
Yang et al. | Simulating land use change by integrating ANN-CA model and landscape pattern indices | |
Yang et al. | Simulating intraurban land use dynamics under multiple scenarios based on fuzzy cellular automata: a case study of Jinzhou district, Dalian | |
Liu et al. | Simulating urban dynamics in China using a gradient cellular automata model based on S-shaped curve evolution characteristics | |
Ahlqvist et al. | Spatial and semantic dimensions of landscape heterogeneity | |
Lin et al. | Analyzing the spatial factors related to the distributions of building heights in urban areas: A comparative case study in Guangzhou and Shenzhen | |
CN109902881A (zh) | 基于多元统计分析和lstm融合的pm2.5浓度预测方法 | |
Huang et al. | Research on urban modern architectural art based on artificial intelligence and GIS image recognition system | |
Mokeyev et al. | Analysis of socio-economic system processes performance with the help of eigenstate models | |
Cheng et al. | The effects of urbanization on ecosystem services for biodiversity conservation in southernmost Yunnan Province, Southwest China | |
Jiang et al. | Quantitative evaluation of mining geo-environmental quality in Northeast China: comprehensive index method and support vector machine models | |
Sapena et al. | Identifying urban growth patterns through land-use/land-cover spatio-temporal metrics: Simulation and analysis | |
Wu et al. | Simulating urban expansion by coupling a stochastic cellular automata model and socioeconomic indicators | |
Graf et al. | The impact of the parameterisation of physiographic features of urbanised catchment areas on the spatial distribution of components of the water balance using the WetSpass model | |
CN102208027B (zh) | 基于间隙度维数的土地利用空间格局评价方法 | |
Lagarias | Exploring land use policy scenarios with the use of a cellular automata-based model: urban sprawl containment and sustainable development in Thessaloniki | |
Pei et al. | Study on agricultural drought risk assessment based on information entropy and a cluster projection pursuit model | |
Yao | Application of GIS remote sensing information integration in eco-environmental quality monitoring | |
Li et al. | Exploring the performance of spatio-temporal assimilation in an urban cellular automata model | |
Ghonchepour et al. | Detection and prediction of land use changes and population dynamics in the Gorganrud River basin, Iran | |
Xiao et al. | New Risk Control Technology for Port Channel Construction Operations Based on BIM | |
Chircu et al. | Towards a Digital Twin of Society |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
AD01 | Patent right deemed abandoned | ||
AD01 | Patent right deemed abandoned |
Effective date of abandoning: 20230228 |