CN102147814A - 一种隐私保护数据共享发布方法 - Google Patents

一种隐私保护数据共享发布方法 Download PDF

Info

Publication number
CN102147814A
CN102147814A CN 201110097921 CN201110097921A CN102147814A CN 102147814 A CN102147814 A CN 102147814A CN 201110097921 CN201110097921 CN 201110097921 CN 201110097921 A CN201110097921 A CN 201110097921A CN 102147814 A CN102147814 A CN 102147814A
Authority
CN
China
Prior art keywords
data
attribute
archimedes
cos
spiral
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 201110097921
Other languages
English (en)
Other versions
CN102147814B (zh
Inventor
倪巍伟
陆介平
崇志宏
黄茂峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN 201110097921 priority Critical patent/CN102147814B/zh
Publication of CN102147814A publication Critical patent/CN102147814A/zh
Application granted granted Critical
Publication of CN102147814B publication Critical patent/CN102147814B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种隐私保护数据共享发布方法,包括如下步骤:用户通过服务器接口提交数据集,服务器判断数据集维数,若为奇数,则增加一个属性,该维数据属性值置零,将属性随机两两分组;分析数据集中数据点间的距离关系,确定阿基米德螺线旋转参数,借助阿基米德螺线的几何性质,对原始数据中属性值对进行阿基米德螺线旋转变换,生成变换后数据集。本发明通过维持原始数据集任意三个数据记录间距离关系稳定实现隐藏前后数据集聚类效果相同(或相似),实现有效兼顾聚类可用性和数据隐私安全性的隐私保护数据共享发布。

Description

一种隐私保护数据共享发布方法
技术领域
本发明涉及一种数据处理方法,特别是一种隐私保护数据共享发布方法。
背景技术
近年来聚类挖掘已在一些深层次数据应用中取得较大进展,但随着人们对数据隐私的日益关注,对数据进行共享挖掘也带来了隐私保护方面的问题。例如,通过对电子病历进行挖掘可以得到病症的聚类,但医疗机构若直接将原始数据提供给挖掘者,会导致病例数据暴露,泄露患者隐私。保险公司的理赔信息、银行卡交易等数据中隐含的聚类模式,对政府和企业决策具有重要意义,同时又都可能涉及个人隐私。
隐私保护数据发布需要在保护数据隐私和维持数据可用性间寻求一种折中,目前数据隐藏技术的主要思想是通过对原始个体数据取值的修改实现对微数据隐私安全的保护,这种修改将以较大的概率造成数据个体差异的改变;而聚类挖掘恰恰通过分析数据个体的相似和相异性,按照属于同一聚簇的数据对象具有较低的相异性,属于不同聚簇的数据对象间具有较高相异性的思想将数据划分成簇,聚类过程严重依赖于个体数据间的相异性。某种程度上,聚类与隐藏在原理上存在依赖数据个体差异与弱化数据个体差异的冲突,导致面向聚类的数据隐藏有别于面向其它数据应用的隐藏。面向聚类的数据隐藏发布更是由于以下几方面原因变得困难:
(1)保持聚类可用性的困难
较之面向计数查询或关联、分类挖掘时隐藏处理中需保持的数据可用性特征和约束,聚类可用性与数据分布及个体数据内部结构相似性的关系更为紧密。而数据隐藏正是通过修改个体数据特征实现保护数据隐私,这种修改极易引起个体数据内部结构相似性和数据分布的连锁变化。
(2)数值型数据的约束
数值型数据是聚类分析常见的数据类型。不同于类别型数据,数值型数据缺少显式的属性类别层次,数据匿名隐藏方法常用的泛化和抑制操作将失效或造成较大的信息丢失。对数值型数据集进行聚类分析,欧式距离是评价数据间相似性和相异性的基本指标,隐藏方法需要保证隐藏前后任意数据记录间的欧式距离关系不变,以确保隐藏发布后数据的聚类质量不变或改变较小。
已有的一些数据隐藏发布方法存在不适用于数值型数据隐藏或难以兼顾隐藏后数据聚类可用性与数据隐私安全性的不足。
发明内容
发明目的:针对上述现有技术无法很好的解决面向聚类挖掘的隐私保护数据共享发布问题,本发明的目的是提供一种基于阿基米德螺线旋转的隐私保护数据共享发布方法,以实现web环境下多数据源数据的安全共享与聚类可用性。
技术方案:为实现上述发明目的,本发明采用的技术方案为一种隐私保护数据共享发布方法,包括如下步骤(如图1所示):
(1)用户向服务器提交包含n条记录的原始数据集D,D包含m个属性列I1,I2,...,Im
(2)若所述步骤(1)中的m为奇数,则转到步骤(3),若m为偶数,则转到步骤(4);
(3)为D生成第m+1个属性列Im+1,D中n条记录在属性列Im+1上的取值均为0;
(4)将D中属性列随机两两分组,得到m/2或(m+1)/2个属性列对(Ii,Ij),1≤i≠j≤m+1;对于一个属性列对(Ii,Ij),Ii称为Ij的配对属性列,Ij也为Ii的配对属性列;
(5)对D中任意三个满足AB≥AC≥BC的不同的数据点A、B、C,生成基于阿基米德螺线旋转数据变换后保持所述三个数据点距离关系保持稳定的旋转参数取值范围βk,k∈[1,2,3,...,
Figure BDA0000056011160000021
];这里保持稳定的意思是,原来A、B、C三个数据点距离关系是AB≥AC≥BC,则生成基于阿基米德螺线旋转数据变换后三个数据点距离关系原则上仍保持不变,仅在取等号时可能发生微小的变化;
(6)生成原始数据集D的阿基米德螺线旋转参数取值范围β0
β 0 = I k = 1 C n 3 β k ;
(7)选取满足ε×α∈β0的螺距参数ε与旋转角度α,对D中各属性对的投影数据子集进行阿基米德螺线旋转,生成变换后投影数据子集;
(8)若m为奇数,将变换后Im+1属性列及其配对属性列合并,并与其它变换后投影数据子集进行并操作,生成D的变换后数据集D′;若m为偶数,对变换后所有投影数据子集进行并操作,生成D的变换后数据集D′。
所述步骤(5)中旋转参数取值范围βk的生成方法可为:假设1、2属性列组成一对,3、4属性列组成一对,…,m-1、m属性列组成一对,任意数据点A、B、C向量表示如下:
A(A1,A2,...,Am),B(B1,B2,...,Bm),C(C1,C2,...,Cm);
其中线段A1A2、B1B2与原点O的夹角为θ11,A3A4、B3B4与O的夹角为θ12,...,Am-1Am、Bm-1Bm与O的夹角为θ1(m/2);线段A1A2、C1C2与O的夹角为θ21,A3A4、C3C4与O的夹角为θ22,...,Am-1Am、Cm-1Cm与O的夹角为θ2(m/2)。其中θ11、θ12、...、θ1(m/2),θ21、θ22、...、θ2(m/2)∈[0,π],假设:
M = 2 Σ i = 1 m / 2 ( cos θ 2 i - cos θ 1 i ) ,
N = 2 Σ i = 1 m / 2 ( b i - c i + a i ( cos θ 2 i - cos θ 1 i ) + c i cos θ 2 i - b i cos θ 1 i ) ,
则旋转变换后AB和AC距离关系保持稳定的阿基米德旋转参数取值范围
Figure BDA0000056011160000033
的生成方法如下:
①M=0,N=0时, β k 1 = ( 0 , + ∞ ) ;
②M=0,N≠0时, β k 1 = ( 0 , ( AB 2 - AC 2 ) / N ) ;
③M>0时, β k 1 = ( 0 , ( - N - N 2 - 4 M ( AB 2 - AC 2 ) ) / 2 M ) ;
④M<0时, β k 1 = ( 0 , ( - N + N 2 - 4 M ( AB 2 - AC 2 ) ) / 2 M ) ;
对AC≥BC进行类似分析生成旋转变换后AC和BC距离关系保持稳定的阿基米德旋转参数取值范围
Figure BDA0000056011160000038
1)M=0,N=0时, β k 2 = ( 0 , + ∞ ) ;
2)M=0,N≠0时, β k 2 = ( 0 , ( AC 2 - BC 2 ) / N ) ;
3)M>0时, β k 2 = ( 0 , ( - N - N 2 - 4 M ( AC 2 - BC 2 ) ) / 2 M ) ;
4)M<0时, β k 2 = ( 0 , ( - N + N 2 - 4 M ( AC 2 - BC 2 ) ) / 2 M ) ;
则旋转变换后数据点A、B、C距离关系保持稳定的阿基米德旋转参数取值范围
Figure BDA00000560111600000313
所述步骤(7)中,对D中各属性对的投影数据子集进行阿基米德螺线旋转的方法如下:
假设P(x,y)为某属性列对的投影数据子集中的数据点,该数据点对应二维平面上的一点,阿基米德螺线的螺心坐标为(Ox,Oy),螺线旋转角度为α,点P旋转变换后坐标为(x′,y′),将螺心(Ox,Oy)映射到原点O,相应的将点P映射为点(x-Ox,y-Oy);
将映射后的点P坐标(x-Ox,y-Oy)代入螺线方程r=εθ;
1°若方程等式成立,则点P位于螺线上:
x′=(rp+εα)cos(rp/ε+α)+Ox
y′=(rp+εα)sin(rp/ε+α)+Oy
2°若方程等式不成立,则点P不在螺线上,先由下式求出螺线正向旋转到点P所用的角度δ,δ∈[0,2π]:
rp·cos(rp/ε+δ)=x-Ox
rp·sin(rp/ε+δ)=y-Oy
x′与y′由下式求得:
x′=(rp+εα)cos(rp/ε+α+δ)+Ox
y′=(rp+εα)sin(rp/ε+α+δ)+Oy
其中,rp表示P(x,y)到螺心坐标为(Ox,Oy)的欧几里德距离, r p = ( x - O x ) 2 + ( y - O y ) 2 .
所述步骤(8)中,若m为奇数,对变换后Im+1属性列及其配对属性列合并方法如下:
Im+1属性列的配对属性列为属性Ii,1≤i≤m,生成属性列对(Ii,Im+1),其投影数据子集对应阿基米德螺线螺心坐标为(Ox,0),假设Q′(x′,y′)为对该投影数据子集实施阿基米德螺线旋转变换生成数据集中的任意数据记录,则:
(A)若x′≥Ox
x ′ ′ = O x + ( x ′ - O x ) 2 + y ′ 2 ;
(B)若x′<Ox
x ′ ′ = O x - ( x ′ - O x ) 2 + y ′ 2 ;
式中,x″为Q′(x′,y′)合并后的属性取值。
有益效果:本发明针对面向聚类分析的隐私保护数据发布应用,采用基于阿基米德螺线旋转的数据变换,在无需用户输入任何参数的情况下,通过对输入数据集数据点间距离关系的分析,确定保持任意三点数据变换前后距离关系不变的阿基米德螺线旋转参数,生成旋转变换后新数据集,实现对原始数据隐私安全的保护和变换前后数据集聚类效果的保持。
附图说明
图1为本发明系统处理流程图;
图2为本发明实施例1的原始数据集D1矩阵示意图;
图3为本发明实施例1原始数据集D1中数据点间距离关系示意图;
图4为本发明实施例1所生成三个属性对对应的投影数据子集示意图;
图5为本发明实施例1所生成三个投影数据子集旋转变换后示意图;
图6为本发明实施例1对3个变换后数据子集进行合并属性与并操作生成D1变换后数据集示意图;
图7为本发明实施例2原始数据集D2矩阵示意图
图8为本发明实施例2原始数据集D2中数据点间距离关系示意图;
图9为本发明实施例2所生成三个属性对对应的投影数据子集示意图;
图10为本发明实施例2所生成三个投影数据子集旋转变换后示意图;
图11为本发明实施例2对3个变换后数据子集进行并操作后生成D2变换后数据集示意图;
图12为阿基米德螺线示意图;
图13为阿基米德螺线旋转示意图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
本发明考虑借鉴阿基米德螺线等距特性,通过对阿基米德螺线几何性质的研究,结合数据隐私保护与保持聚类可用性要求,设计螺线旋转策略,实现对原始数据的隐藏变换,解决面向聚类的数据隐藏发布问题。
下面对数据集属性数目为奇数与偶数的情况分别通过实例验证基于阿基米德螺线旋转数据变换的效果。
案例1.数据集D1包含5个属性,8条数据记录(矩阵表示如图2所示),数据集D1中数据点间距离关系如图3所示。按照发明内容部分所描述流程,为D1添加第6个属性I6,属性值取零;随机生成的属性对为(I1,I5),(I2,I3),(I4,I6),各属性对相应的投影数据子集如图4所示。生成D1的阿基米德螺线参数取值范围β0=(0,0.0424285),在此范围内随机选区参数ε=0.00475759,由于β0=εα,扰动角度α=6.9115。各投影数据子集相应的阿基米德螺线螺心坐标为各数据子集的均值坐标,分别为(3.1,5.35),(4.6,5.3)和(5.2,0),对各数据子集进行旋转变换,将变换后的三个投影数据子集(见图5)并起来,并合并新增属性后,生成基于阿基米德螺线旋转变换后数据集D′1(如图6所示)。容易验证D′1中数据点间距离关系与图3中关系相同。
案例2.数据集D2包含6个属性,8条数据记录(矩阵表示如图7所示),数据集D2中数据点间距离关系如图8所示。按照发明内容部分所描述流程,随机生成的3个属性对(I1,I5),(I2,I3),(I4,I6)。各属性对对应投影数据子集如图9所示。分析生成数据集D2的阿基米德螺线参数取值范围β0=(0,0.00240612),在此范围内随机选区参数ε=0.00022511,由于β0=εα,扰动角度α=9.29911。各投影数据子集相应的阿基米德螺线螺心坐标为各数据子集的均值坐标,分别为(4.75,4.67),(4.5,4.91)和(5.78,4.4),对各数据子集进行旋转变换,将变换后的三个投影数据子集(见图10)并起来,基于阿基米德螺线旋转数据变换后数据集D′2如图11所示。容易验证D′2中数据点间距离关系与图8中关系相同。
以下对本发明用于面向聚类的隐私保护数据共享发布结果的准确性和有效性进行分析。假设阿基米德螺线为r=εθ(ε>0),螺线旋动角度为α(α>0),对平面上任意数据点,该数据点基于阿基米德螺线的旋转操作过程如下:若该点落在螺线上,则该点顺着螺线的方向在螺线上移动(如图12);若该点不在螺线上,使螺线绕其螺心旋转直至遇到该点,该点再顺着转动后的螺线方向在螺线上移动,如图13所示。有如下结论:
A、B、C为平面上任意三个数据点,满足AB>AC,则存在阈值参数ε0α0,当阿基米德螺线旋转参数εα∈(0,ε0α0]时,经阿基米德螺线旋转后所得数据点A’、B’、C’,仍满足A’B’>A’C’。
证明:假设螺线螺心为坐标原点O,|OA|=a,|OB|=b,|OC|=c.
∠AOB=θ1,∠AOC=θ2,且θ1,θ2∈[0,π].
由阿基米德螺线旋转性质可知:∠A′OB′=∠AOB=θ1,∠A′OC′=∠AOC=θ2,|OA′|=ε(a/ε+α)=a+εα,
|OB′|=b+εα,|OC′|=c+εα.
由余弦定理可得:AB2-AC2=b2-c2+2a(ccosθ2-bcosθ1).
A′B′2-A′C′2=(b+εα)2-(c+εα)2+2(a+εα)((c+εα)cosθ2-(b+εα)cosθ1).
令x=εα,M=2(cosθ2-cosθ1),N=2(b-c+a(cosθ2-cosθ1)+ccosθ2-bcosθ1).
A′B′2-A′C′2=AB2-AC2+Mx2+Nx.
1.若θ1=θ2,M=0,A′B′2-A′C′2=AB2-AC2+Nx.
由AB>AC得AB2-AC2>0.
(1)当cosθ1=1时,则N=0,f(x)=0.
A′B′2-A′C′2=AB2-AC2+f(x)>0,得出A′B′>A′C′.
x∈(0,+∞)时,A′B′>A′C′均成立
(2)当cosθ1≠1时,则N≠0,f(x)≠0.
①当b>c且b+c>2acosθ1
若A′B′>A′C′,则(A′B′2-A′C′2)/(AB2-AC2)>0成立(A′B′2-A′C′2)/(AB2-AC2)=1+2(1-cosθ1)/(b+c-2acosθ1)
x>(2acosθ1-b-c)/(2(1-cosθ1))
由2acosθ1-b-c<0且1-cosθ1>0,得出(2acosθ1-b-c)/(2(1-cosθ1))<0
因此,x在定义域(0,+∞)范围内取任何值,A′B′>A′C′都成立,ε0α0在(0,+∞)上有解。
②当b<c且b+c<2acosθ1时,可得出类似结论:x∈(0,(2acosθ1-b-c)/2(1-cosθ1))时,A′B′>A′C′成立,ε0α0在(0,(2acosθ-b-c)/(2(1-cosθ))]上有解。
2.θ1≠θ2
由θ1,θ2∈[0,π],有cosθ1≠cosθ2
A′B′2-A′C′2=AB2-AC2+f(x)=b2-c2+2a(ccosθ2-bcosθ1)+2(cosθ2-cosθ1)x2+2(b-c+a(cosθ2-cosθ1)+ccosθ2-bcosθ1)x
令F(x)=A′B′2-A′C′2=AB2-AC2+f(x)
则F(x)=Mx2+Nx+AB2-AC2.F(0)=AB2-AC2>0
(1)当cosθ1<cosθ2时,则M>0
①N≥0,则-N/(2M)≤0,由抛物线方程易得:x在定义域(0,+∞)范围内取任何值,均满足F(x)>0,即A′B′>A′C′成立。
②N≤0,有-N/(2M)≥0,推出F(0)>0,F(x)为开口向上中轴线在y轴右侧的二次方程曲线,假设曲线与x轴交点为x1≤x2,由抛物线知识得出:ε0α0在(0,x1)上时有解。
(2)当cosθ1>cosθ2时,则M<0,由F(0)>0推出F(x)为开口向下最大值为正的二次方程曲线,假设曲线与x轴交点为x1≤x2,类似分析可得:x在(0,x2)范围内取任何值,F(x)>0即A′B′>A′C′都成立。
综上所述,在(0,+∞)上一定存在ε0α0满足A′B′>A′C′,εα可以取(0,ε0α0]上任一实数,使A′B′>A′C′。
基于阿基米德螺线旋转的数据变换可保证m维数据集变换前后任意三个数据点间的距离大小关系稳定。
证明:阿基米德螺线方程为r=εθ(ε>0),旋动角度为α(α>0),螺线螺心为坐标原点O,A、B、C为数据集上任意三个数据点,满足AB>AC>BC,三点经螺线旋转变换后为A′、B′、C′:
A(A1,A2,...,Am),A′(A′1,A′2,...,A′m);
B(B1,B2,...,Bm),B′(B′1,B′2,...,B′m);
C(C1,C2,...,Cm),C′(C′1,C′2,...,C′m);
不妨假设属性数目为偶数,若为奇数,则增加一个取值为0的属性;将1、2属性组成一对,3、4属性组成一对,……,m-1、m属性组成一对。
其中线段A1A2、B1B2与原点O的夹角为θ11,A3A4、B3B4与O的夹角为θ12,…,Am-1Am、Bm-1Bm与O的夹角为θ1(m/2)
线段A1A2、C1C2与O的夹角为θ21,A3A4、C3C4与O的夹角为θ22,…,Am-1Am、Cm-1Cm与O的夹角为θ2(m/2)
其中θ11、θ12、…、θ1(m/2),θ21、θ22、…、θ2(m/2)∈[0,π].
令:a1=(A1+A2)1/2,a2=(A3+A4)1/2,…,a(m/2)=(Am-1+Am)1/2
对bi,ci(i∈[1..m/2])进行类似定义。
由阿基米德螺线旋转特点可知:θ′11=θ11,θ′12=θ12,……、θ′1(m/2)=θ1(m/2)、θ′21=θ21,θ′22=θ22,……、θ′2(m/2)=θ2(m/2)
a′i=ai+εα,b′i=bi+εα,c′i=ci+εα,i∈[1..m/2];
根据多维余弦定理知:
AB2=a1 2+b1 2-2a1b1cosθ11+...+a(m/2) 2+b(m/2) 2-2a(m/2)b(m/2)cosθ1(m/2)
AC2=a1 2+c1 2-2a1c1cosθ11+...+a(m/2) 2+c(m/2) 2-2a(m/2)c(m/2)cosθ1(m/2)
令:x=εα
可得:(A′B′)2-(A′C′)2=(b1+x)2-(c1+εx)2+2(a1+x)((c1+x)cosθ21-(b1+x)cosθ11)+...+(b(m/2)+x)2-(c(m/2)+εx)2+2(a(m/2)+x)((c(m/2)+x)cosθ2(m/2)-(b(m/2)+x)cosθ1(m/2))=AB2-AC2+f(x).
假设: M = 2 Σ i = 1 m / 2 ( cos θ 2 i - cos θ 1 i )
N = 2 Σ i = 1 m / 2 ( b i - c i + a i ( cos θ 2 i - cos θ 1 i ) + c i cos θ 2 i - b i cos θ 1 i )
则f(x)=Mx2+Nx,A′B′2-A′C′2=AB2-AC2+f(x)
令:F(x)=(A′B′)2-(A′C′)2=AB2-AC2+Mx2+Nx.
1.当M=0,N=0时,(A′B′)2-(A′C′)2=AB2-AC2>0,x取(0,+∞)范围内取任何值,A′B′>A′C′都成立.
2.当M=0,N≠0时,F(x)为斜率为N且与且y轴交点为正值的直线,若N≥0,x在(0,+∞)范围内取任何值,均有F(x)>0,即A′B′>A′C′成立。ε0α0在(0,+∞)上有解;N<0时,F(x)与x轴交点为x1,在定义域(0,x1)范围内取任何值,F(x)>0(即A′B′>A′C′)均成立.推得ε0α0在(0,x1)上有解。
3.若M≠0
(1).当M>0时,F(x)为开口向上且与y轴交点为正且若与x轴交点二次方程,假设F(x)与x轴交于两点0<x1≤x2,由抛物线性质可知,x∈(0,x1),F(x)>0,若F(x)与x轴不相交,则x1为+∞.
(2).当M<0,F(x)为开口向下且与y轴交点为正的抛物线,F(x)与x轴交于两点x1<0<x2,类似分析可得:x∈(0,x2),F(x)>0.
综上所证,对m维数据空间的任意三个数据点A,B,C(AB>AC),存在阈值ε0α0,当阿基米德螺线旋转参数εα∈(0,ε0α0]时,基于螺线旋转数据变换后的数据点A′、B′、C′仍满足A′B′>A′C′;对AC>BC情况可以进行类似分析证明。

Claims (4)

1.一种隐私保护数据共享发布方法,其特征在于,包括如下步骤:
(1)用户向服务器提交包含n条记录的原始数据集D,D包含m个属性列I1,I2,…,Im
(2)若所述步骤(1)中的m为奇数,则转到步骤(3),若m为偶数,则转到步骤(4);
(3)为D生成第m+1个属性列Im+1,D中n条记录在属性列Im+1上的取值均为0;
(4)将D中属性列随机两两分组,得到m/2或(m+1)/2个属性列对(Ii,Ij),1≤i≠j≤m+1;
(5)对D中任意三个满足AB≥AC≥BC的不同的数据点A、B、C,生成基于阿基米德螺线旋转数据变换后保持所述三个数据点距离关系保持稳定的旋转参数取值范围βk,k∈[1,2,3,...,
Figure FDA0000056011150000011
];
(6)生成原始数据集D的阿基米德螺线旋转参数取值范围β0
β 0 = I k = 1 C n 3 β k ;
(7)选取满足ε×α∈β0的螺距参数ε与旋转角度α,对D中各属性对的投影数据子集进行阿基米德螺线旋转,生成变换后投影数据子集;
(8)若m为奇数,将变换后Im+1属性列及其配对属性列合并,并与其它变换后投影数据子集进行并操作,生成D的变换后数据集D′;若m为偶数,对变换后所有投影数据子集进行并操作,生成D的变换后数据集D′。
2.根据权利要求1所述一种隐私保护数据共享发布方法,其特征在于,所述步骤(5)中旋转参数取值范围βk的生成方法为:假设1、2属性列组成一对,3、4属性列组成一对,…,m-1、m属性列组成一对,任意数据点A、B、C向量表示如下:
A(A1,A2,…,Am),B(B1,B2,…,Bm),C(C1,C2,…,Cm);
其中线段A1A2、B1B2与原点O的夹角为θ11,A3A4、B3B4与O的夹角为θ12,…,Am-1Am、Bm-1Bm与O的夹角为θ1(m/2);线段A1A2、C1C2与O的夹角为θ21,A3A4、C3C4与O的夹角为θ22,…,Am-1Am、Cm-1Cm与O的夹角为θ2(m/2)。其中θ11、θ12、…、θ1(m/2),θ21、θ22、…、θ2(m/2)∈[0,π],假设:
M = 2 Σ i = 1 m / 2 ( cos θ 2 i - cos θ 1 i ) ,
N = 2 Σ i = 1 m / 2 ( b i - c i + a i ( cos θ 2 i - cos θ 1 i ) + c i cos θ 2 i - b i cos θ 1 i ) ,
则保持旋转变换后AB和AC距离关系保持稳定的阿基米德旋转参数取值范围
Figure FDA0000056011150000023
的生成方法如下:
①M=0,N=0时, β k 1 = ( 0 , + ∞ ) ;
②M=0,N≠0时, β k 1 = ( 0 , ( AB 2 - AC 2 ) / N ) ;
③M>0时, β k 1 = ( 0 , ( - N - N 2 - 4 M ( AB 2 - AC 2 ) ) / 2 M ) ;
④M<0时, β k 1 = ( 0 , ( - N + N 2 - 4 M ( AB 2 - AC 2 ) ) / 2 M ) ;
对AC≥BC进行类似分析生成保持旋转变换后AC和BC距离关系保持稳定的阿基米德旋转参数取值范围
Figure FDA0000056011150000028
1)M=0,N=0时, β k 2 = ( 0 , + ∞ ) ;
2)M=0,N≠0时, β k 2 = ( 0 , ( AC 2 - BC 2 ) / N ) ;
3)M>0时, β k 2 = ( 0 , ( - N - N 2 - 4 M ( AC 2 - BC 2 ) ) / 2 M ) ;
4)M<0时, β k 2 = ( 0 , ( - N + N 2 - 4 M ( AC 2 - BC 2 ) ) / 2 M ) ;
则旋转变换后数据点A、B、C距离关系保持稳定的阿基米德旋转参数取值范围
3.根据权利要求1所述一种隐私保护数据共享发布方法,其特征在于,所述步骤(7)中,对D中各属性对的投影数据子集进行阿基米德螺线旋转的方法如下:
假设P(x,y)为某属性列对的投影数据子集中的数据点,该数据点对应二维平面上的一点,阿基米德螺线的螺心坐标为(Ox,Oy),螺线旋转角度为α,点P旋转变换后坐标为(x′,y′),将螺心(Ox,Oy)映射到原点O,相应的将点P映射为点(x-Ox,y-Oy);
将映射后的点P坐标(x-Ox,y-Oy)代入螺线方程r=εθ;
1°若方程等式成立,则点P位于螺线上:
x′=(rp+εα)cos(rp/ε+α)+Ox
y′=(rp+εα)sin(rp/ε+α)+Oy
2°若方程等式不成立,则点P不在螺线上,先由下式求出螺线正向旋转到点P所用的角度δ,δ∈[0,2π]:
rp·cos(rp/ε+δ)=x-Ox
rp·sin(rp/ε+δ)=y-Oy
x′与y′由下式求得:
x′=(rp+εα)cos(rp/ε+α+δ)+Ox
y′=(rp+εα)sin(rp/ε+α+δ)+Oy
其中,rp表示P(x,y)到螺心坐标为(Ox,Oy)的欧几里德距离, r p = ( x - O x ) 2 + ( y - O y ) 2 .
4.根据权利要求1所述一种隐私保护数据共享发布方法,其特征在于,所述步骤(8)中,若m为奇数,对变换后Im+1属性列及其配对属性列合并方法如下:
Im+1属性列的配对属性列为属性列Ii,1≤i≤m,生成属性列对(Ii,Im+1),其投影数据子集对应阿基米德螺线螺心坐标为(Ox,0),假设Q′(x′,y′)为对该投影数据子集实施阿基米德螺线旋转变换生成数据集中的任意数据记录,则:
(A)若x′≥Ox
x ′ ′ = O x + ( x ′ - O x ) 2 + y ′ 2 ;
(B)若x′<Ox
x ′ ′ = O x - ( x ′ - O x ) 2 + y ′ 2 ;
式中,x″为Q′(x′,y′)合并后的属性取值。
CN 201110097921 2011-04-19 2011-04-19 一种隐私保护数据共享发布方法 Expired - Fee Related CN102147814B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110097921 CN102147814B (zh) 2011-04-19 2011-04-19 一种隐私保护数据共享发布方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110097921 CN102147814B (zh) 2011-04-19 2011-04-19 一种隐私保护数据共享发布方法

Publications (2)

Publication Number Publication Date
CN102147814A true CN102147814A (zh) 2011-08-10
CN102147814B CN102147814B (zh) 2012-12-19

Family

ID=44422079

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110097921 Expired - Fee Related CN102147814B (zh) 2011-04-19 2011-04-19 一种隐私保护数据共享发布方法

Country Status (1)

Country Link
CN (1) CN102147814B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103200034A (zh) * 2013-03-26 2013-07-10 杭州新世纪信息技术股份有限公司 一种基于谱约束和敏感区划分的网络用户结构扰动方法
CN106295392A (zh) * 2015-06-24 2017-01-04 阿里巴巴集团控股有限公司 数据脱敏处理方法和装置
CN107038198A (zh) * 2016-12-08 2017-08-11 阿里巴巴集团控股有限公司 数据的可视化处理方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6327574B1 (en) * 1998-07-07 2001-12-04 Encirq Corporation Hierarchical models of consumer attributes for targeting content in a privacy-preserving manner
CN101814119A (zh) * 2010-02-13 2010-08-25 武汉理工大学 具有隐私保护的用户模型构建方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6327574B1 (en) * 1998-07-07 2001-12-04 Encirq Corporation Hierarchical models of consumer attributes for targeting content in a privacy-preserving manner
CN101814119A (zh) * 2010-02-13 2010-08-25 武汉理工大学 具有隐私保护的用户模型构建方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《Sixth IEEE International Conference on Data Mining》 20061231 Jie Wang et al. NNMF-Based Factorization Techniques for High-Accuracy Privacy Protection on Non-negative-valued Datasets 1~5 1-4 , *
《东南大学学报(自然科学版)》 20100731 刘腾腾 多维数值敏感属性隐私保护数据发布方法 699~703 1-4 第40卷, 第4期 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103200034A (zh) * 2013-03-26 2013-07-10 杭州新世纪信息技术股份有限公司 一种基于谱约束和敏感区划分的网络用户结构扰动方法
CN103200034B (zh) * 2013-03-26 2015-07-15 杭州新世纪电子科技有限公司 一种基于谱约束和敏感区划分的网络用户结构扰动方法
CN106295392A (zh) * 2015-06-24 2017-01-04 阿里巴巴集团控股有限公司 数据脱敏处理方法和装置
CN107038198A (zh) * 2016-12-08 2017-08-11 阿里巴巴集团控股有限公司 数据的可视化处理方法及装置
CN107038198B (zh) * 2016-12-08 2020-04-07 阿里巴巴集团控股有限公司 数据的可视化处理方法及装置

Also Published As

Publication number Publication date
CN102147814B (zh) 2012-12-19

Similar Documents

Publication Publication Date Title
Burnaev et al. One-class SVM with privileged information and its application to malware detection
Ye Single-valued neutrosophic minimum spanning tree and its clustering method
Jiang et al. Publishing trajectories with differential privacy guarantees
Guo et al. Smartphone‐based activity recognition independent of device orientation and placement
Feng et al. Privacy-preserving tucker train decomposition over blockchain-based encrypted industrial IoT data
Abduljaleel et al. A lightweight hybrid scheme for hiding text messages in colour images using LSB, Lah transform and Chaotic techniques
Salim et al. A visual cryptography-based watermarking approach for the detection and localization of image forgery
CN102147814B (zh) 一种隐私保护数据共享发布方法
Wang et al. An area-based shape distance measure of time series
Liu et al. Noise reduction power stealing detection model based on self-balanced data set
Xi et al. Zero-watermarking for vector maps combining spatial and frequency domain based on constrained delaunay triangulation network and discrete fourier transform
Liang et al. Hausdorff distance model-based identity authentication for IP circuits in service-centric internet-of-things environment
Zhang et al. Quantitative analysis and evaluation of coal mine geological structures based on fractal theory
Gu et al. [Retracted] Deep Possibilistic C‐means Clustering Algorithm on Medical Datasets
Khan et al. Graph-based management and mining of blockchain data
AbdelRaouf et al. Efficient convolutional neural network-based keystroke dynamics for boosting user authentication
Li et al. Privacy‐preserving constrained spectral clustering algorithm for large‐scale data sets
Zhao et al. A twist for graph classification: Optimizing causal information flow in graph neural networks
Rachmawanto et al. Block-based arnold chaotic map for image encryption
Wang et al. CWAN: covert watermarking attack network
Cao et al. Research on database watermarking based on independent component analysis and multiple rolling
Liao et al. Unmanned aerial vehicle-assisted federated learning method based on a trusted execution environment
Bishwal Berry–Esseen inequalities for the fractional Black–Karasinski model of term structure of interest rates
Shakir et al. Diagnosis security problems in cloud computing for business cloud
Ding et al. A New Subject-Sensitive Hashing Algorithm Based on MultiRes-RCF for Blockchains of HRRS Images

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20121219

Termination date: 20150419

EXPY Termination of patent right or utility model