CN107688752A - 一种面向多视图聚类挖掘的个性化隐私保护方法 - Google Patents
一种面向多视图聚类挖掘的个性化隐私保护方法 Download PDFInfo
- Publication number
- CN107688752A CN107688752A CN201710717235.6A CN201710717235A CN107688752A CN 107688752 A CN107688752 A CN 107688752A CN 201710717235 A CN201710717235 A CN 201710717235A CN 107688752 A CN107688752 A CN 107688752A
- Authority
- CN
- China
- Prior art keywords
- privacy
- data
- clustering
- cluster
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
- G06F21/6254—Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种面向多视图聚类挖掘的个性化隐私保护方法,属于信息安全技术领域。本发明提出隐私偏序拓扑分类算法(PT,Privacy Topology),针对不同隐私数据的敏感性差异表示问题,先定义隐私关系并构建隐私偏序集,据此设计隐私数据的拓扑分类算法求解隐私线序集。针对隐私数据的多个视图,对原始数据、隐私度、元组敏感度、隐私线序集等视图进行多视图聚类。提出面向聚类的个性化匿名算法(PPOC,Personal Privacy Oriented Classtering),通过可变k‑匿名策略,利用面向多视图聚类的满足个性化需求的隐私保护算法,实现对不同聚类簇以及同簇内部不同元组施加程度有别的个性化保护操作。
Description
技术领域
本发明为一种面向多视图聚类挖掘的个性化隐私保护方法,涉及信息安全技术领域。
背景技术
随着互联网、物联网、智慧城市等数字化技术的发展,传感器、移动终端等各类数据收集设备将人类的衣食住行各类信息以数字化形式存储起来,从而催生了大数据时代的到来。数据首次作为一种资源,受到了政府、企业以及学术界等社会实体的高度关注。
然而在数据使用过程中,个人的隐私信息可能遭到泄露。在发掘数据潜在价值的过程中,如何保障个人的隐私安全,尤其是如何避免数据挖掘带来的隐私泄露,是数据科学目前亟需解决的关键问题。隐私数据对个人或团体而言是特殊的或敏感的,是其不愿意泄露的信息。隐私信息的保护程度决定着用户对相关服务的信任度和接受性,是数据价值能否找到受众的基础。
数据在发布、存储、挖掘和使用的整个生命周期中都可能存在隐私泄露风险。数据在发布和使用过程中的隐私安全问题已受到学术界的普遍关注,并已产生了大量有意义的研究成果。随着数据挖掘技术在应用层面的普及,面向挖掘的隐私安全问题已经得到了广泛关注,隐私保护领域的研究焦点和重心正在逐步向隐私保护数据挖掘领域偏移。面向聚类挖掘的隐私保护技术是前沿热点。
不同的人对隐私的定义理解是不同的,相同的个体对不同数据隐私的定义也会存在差别。个性化隐私保护能根据用户的不同要求,对数据中的敏感属性值提供不同程度的隐私保护。因此个性化的隐私保护技术更具针对性,针对个性化需求的隐私保护技术研究是学界的前沿热点课题。
总结现有研究成果发现,目前个性化隐私保护研究面临如下关键问题亟需解决:
(1)现存算法几乎是针对数据发布需求而设计的,未涉足聚类挖掘可能导致的隐私安全问题;
(2)已有个性化隐私保护算法未综合考虑用户对隐私认知的差异性和不同属性重要度的差异性,其个性化程度有待提升,且信息损失较大。
发明内容
本发明的目的在于提供一种面向多视图聚类挖掘的个性化隐私保护方法。
本发明针对隐私保护挖掘和个性化隐私保护的上述局限性,提出一种面向多视图聚类挖掘的个性化隐私保护方法。
本发明的目的是通过以下步骤实现的:
一种面向多视图聚类挖掘的个性化隐私保护方法,其特征在于,包含以下步骤:
步骤一 定义隐私关系;隐私数据集合D中的一条记录为多重组d=(d1,d2,…,dn),序偶di=<ai,si>∈d,ai为字段Ai上的原始数据值,si为ai对应的隐私度;称卡氏积D×D的下述子集为D上的隐私关系:
R={<d,d'>|d,d'∈D,di=<ai,si>∈d,d'i=<a'i,s'i>∈d',且si≥s'i};若D上的两条记录d和d'具有隐私关系,即<d,d'>∈R,记为:d≥d';
步骤二 输入隐私数据集D,包括每个视图数据X(i)(i=1,2,3,4),原始数据记录表和对应的隐私度记录表聚类簇数目期望值K,调节参数γ;
初始化队列Q为空,置偏序隐私层L=1,并生成隐私偏序集<D',R'>;其中,记A'=(Ai,Ai+1,……,Ai+k)为原始数据模型A的一个属性子集(k≤n),对应的隐私度子模式为S'=(Si,Si+1,……,Si+k),D中每条记录去掉A'和S'中未出现的属性字段后所得的子集记为D',并设R'为D'上的隐私关系,则称序偶<D',R'>为隐私偏序集合,简称隐私偏序;若数据集合对于隐私数据b∈B,且B中不存在隐私数据x,使得b≠x且b≥x,那么隐私数据b∈B称为B的一个极小隐私元;B的所有极小隐私元构成的集合为B的极小隐私集;隐私数据集的第一个极小隐私集对应的偏序隐私层数为1,删掉第一个极小隐私集后,剩余数据集的极小隐私集对应的层数为2,依次类推,层数逐次增加1,直到删完所有数据为止;
步骤三 判断D是否为空,若为空则得到隐私线序集Q,Q中存储三类值:隐私数据记录指针、偏序隐私层号和相对隐私秩,若D不为空执行下一步;
步骤四 求解D的极小隐私集E,置E'=E,,计算e在E内的相对隐私秩;其中,极小隐私集E中隐私秩最小的隐私数据e为B的一个首隐私极元;记隐私数据d的隐私秩为:
式中,d和d'为给定含n个属性的两条隐私数据,二者对应各属性的隐私度分别为s=(s1,s2,…,sn)和s'=(s'1,s'2,…,s'n);|>为求给定隐私数据的隐私秩的专用符号;符号x|表示若x>0,则置x=0;sign()为符号函数;
步骤五 任选E'内一个首隐私极元e,并置Q队尾节点的记录指针指向e,层数为L,置相对隐私秩为|e>;置E'=E'-{e},判断E'是否为空,若不为空,反复本步骤;
步骤六 置D=D-E,偏序隐私层数L=L+1,判断D是否为空,若不为空返回步骤三;
步骤七 从步骤二中得到每个视图数据X(i)(i=1,2,3,4),聚类簇数目期望值K,调节参数γ;
步骤八 随机填充矩阵G使得每行恰有一个1,其余全为0;生成对角矩阵D(i);
步骤九 计算对角阵
步骤十 更新中心矩阵
步骤十一 更新聚类指示矩阵G:
步骤十二 更新对角矩阵其中e(i)j是E(i)=X(i)-GC(i)的第j行;
步骤十三 更新权重其中:
H(i)=Tr{(X(i)-C(i)GT)D(i)(X(i)-C(i)GT)T};
步骤十四 重复步骤七至步骤十三,直至收敛或超过设定的执行次数;
步骤十五 得到聚类指示矩阵G,各视图的聚类中心矩阵C(i)及权重λ(i),i=1,2,3,4;
步骤十六 对S进行主成分分析,取第一主成分系数u(1)=(u1,u2,…,un)作为属性敏感度;
步骤十七 求S每行记录sj=(sj1,sj2,…,sjn)的元组敏感度置Ts=(S1,S2,…,Sm)T;
步骤十八 记第i个视图的样本矩阵表示为X(i),构造如下所示的多视图K-均值聚类目标函数:
式中,C(i)为第i个视图的聚类中心矩阵;G为聚类指示矩阵,由约束条件知,其每行恰有一个1,其余全为0,若Gjk=1,表明第j个样本在第k个聚类簇中;λ(i)为第i个视图的权重;γ是控制权重分布的调节参数。M为视图个数,本发明包括原始数据、隐私度、元组敏感度和隐私线序集等4个视图;
置X(1)=A,X(2)=S,X(3)=Ts,X(4)=Q,X={X(i)|i=1,2,3,4};
步骤十九 分别以平均偏序隐私层号和平均相对隐私秩为主、次关键字,对聚类簇降序排序,排序后的聚类簇序列记为V=(v1,v2,…,vK);
步骤二十 产生K以内可重复的K个随机正整数序列R,并降序排序得R=(r1,r2,…,rK);
步骤二十一 定义数据集合A',用以存放匿名后的数据,并置A'为空;
步骤二十二 取A中的第t条记录at;基于G,查找at所属聚类簇vp;求vp的平均隐私度
avgp;取at的隐私度高于avgp属性作为敏感属性,其余作为准标识符;对at进行rp-匿
名操作,匿名后的记录存入A';重复步骤二十二m次,然后输出保护后的发布数据A'。
本发明带来的益处为:
有效地实现个性化隐私保护需求的同时,其聚类质量也能达到较好水平。本发明所提的个性化包括两层含义:其一,数据是否为隐私信息,数据收集时由数据产生者确定;其二,各个字段的敏感性不同,对不同敏感性值给予强度有别的操作。发明主要包括:提出隐私偏序拓扑分类算法,据此求解隐私线序集;针对隐私数据的多个视图,对原始数据、隐私度、元组敏感度、隐私线序集等视图进行多视图聚类;提出面向聚类的个性化匿名算,通过可变k-匿名策略,利用面向多视图聚类满足个性化需求的隐私保护算法,实现对不同聚类簇以及同簇内部不同元组施加程度有别的个性化保护操作。本发明的具体总流程如图1。
附图说明
图1为本发明个性化隐私保护方法总流程图。
图2为本发明隐私数据多视图聚类示意图。
图3为本发明隐私偏序的拓扑分类流程。
图4为本发明面向多视图聚类的个性化隐私保护方法操作执行流程。
具体实施方式
对于原始数据模型A=(A1,A2,……,An)下的一条数据表示为d=(a1,a2,……,an),其中,ai为数据的属性,若存在i,(i=1,2,……,n)使得ai是敏感的,不愿意他人知晓,则称此记录d为一条隐私数据,而数据产生者对隐私数据项敏感程度的量化表示,称为隐私度。给定原始数据模式A=(A1,A2,……,An),对应的隐私度模式为S=(S1,S2,……,Sn),则隐私数据模型定义为序偶<A,S>,该模型下的一条隐私数据表示为n重组d=(d1,d2,…,dn),其中di=<ai,si>为有序二重组,ai为属性Ai对应的一个原始数据值,si为ai对应的隐私度。另记dj=(aj1,aj2,……,ajn)为原始数据模式A=(A1,A2,……,An)的第j个元组,设dj各个属性对应的隐私度依次为sj1,sj2,……,sjn,则aj的元组敏感度定义为sj=u1s1+u2s2+…+unsn,即sj是第j个属性隐私度的线性组合,其系数为属性敏感度。
基于上述问题描述,为了实现本发明的目的,本发明采用如下步骤:
步骤001.提出隐私偏序拓扑分类算法(PT,Privacy Topology),针对不同隐私数据的敏感性差异表示问题,先定义隐私关系并构建隐私偏序集,据此设计隐私数据的拓扑分类算法求解隐私线序集。
步骤002.针对隐私数据的多个视图,对原始数据、隐私度、元组敏感度、隐私线序集等视图进行多视图聚类。
步骤003.提出面向聚类的个性化匿名算法(PPOC,Personal Privacy OrientedClasstering),通过可变k-匿名策略,利用面向多视图聚类的满足个性化需求的隐私保护算法,实现对不同聚类簇以及同簇内部不同元组施加程度有别的个性化保护操作。
所述步骤001具体包括如下步骤,具体流程图如图2:
步骤00101.定义隐私关系。隐私数据集合D中的一条记录为多重组d=(d1,d2,…,dn),序偶di=<ai,si>∈d,ai为字段Ai上的原始数据值,si为ai对应的隐私度。称卡氏积D×D的下述子集为D上的隐私关系:
R={<d,d'>|d,d'∈D,di=<ai,si>∈d,d'i=<a'i,s'i>∈d',且si≥s'i}.
若D上的两条记录d和d'具有隐私关系,即<d,d'>∈R,记为:d≥d'.
步骤00102.输入隐私数据集D,初始化队列Q为空,置偏序隐私层L=1,并生成隐私偏序集<D',R'>。其中,记A'=(Ai,Ai+1,……,Ai+k)为原始数据模型A的一个属性子集(k≤n),对应的隐私度子模式为S'=(Si,Si+1,……,Si+k),D中每条记录去掉A'和S'中未出现的属性字段后所得的子集记为D',并设R'为D'上的隐私关系,则称序偶<D',R'>为隐私偏序集合,简称隐私偏序。若数据集合对于隐私数据b∈B,且B中不存在隐私数据x,使得b≠x且b≥x,那么隐私数据b∈B称为B的一个极小隐私元。B的所有极小隐私元构成的集合为B的极小隐私集。隐私数据集的第一个极小隐私集对应的偏序隐私层数为1,删掉第一个极小隐私集后,剩余数据集的极小隐私集对应的层数为2,依次类推,层数逐次增加1,直到删完所有数据为止。
步骤00103.判断D是否为空,若为空输出隐私线序集Q,Q中存储三类值:隐私数据记录指针、偏序隐私层号和相对隐私秩,若D不为空执行下一步。
步骤00104.求解D的极小隐私集E,置E'=E,,计算e在E内的相对隐私秩。其中,极小隐私集E中隐私秩最小的隐私数据e为B的一个首隐私极元。记隐私数据d的隐私秩为:
式中,d和d'为给定含n个属性的两条隐私数据,二者对应各属性的隐私度分别为s=(s1,s2,…,sn)和s'=(s'1,s'2,…,s'n);|>为求给定隐私数据的隐私秩的专用符号;符号x|表示若x>0,则置x=0;sign()为符号函数。
步骤00105.任选E'内一个首隐私极元e,并置Q队尾节点的记录指针指向e,层数为L,置相对隐私秩为|e>。置E'=E'-{e},判断E'是否为空,若不为空,反复本步骤。
步骤00106.置D=D-E,偏序隐私层数L=L+1,判断D是否为空,若不为空返回步骤00103;
对于步骤002,不同视图提供了对隐私数据不同角度的观察轮廓,且视图之间存在密切联系,对隐私数据进行多视图聚类,能揭示视图内部的元组之间以及不同视图之间的内在联系,不同聚类簇体现了不同的隐私个性化需求,这有助于提高隐私保护操作的个性化程度。本发明同时基于原始数据、隐私度、元组敏感度、隐私线序集等多个视图,对隐私数据进行多视图聚类,对不同聚类簇以及同簇内部的不同元组施加程度有别的个性化保护操作,多视图聚类示意图如图1。
记第i个视图的样本矩阵表示为X(i),构造如下所示的多视图K-均值聚类目标函数:
式中,C(i)为第i个视图的聚类中心矩阵;G为聚类指示矩阵,由约束条件知,其每行恰有一个1,其余全为0,若Gjk=1,表明第j个样本在第k个聚类簇中;λ(i)为第i个视图的权重;γ是控制权重分布的调节参数。M为视图个数,本发明包括原始数据、隐私度、元组敏感度和隐私线序集等4个视图。在此目标函数中,指示矩阵G实现了不同视图的关联。(上述目标函数的求解过程比较复杂,详细过程参见:一种面向聚类的隐私保护数据发布方法,计算机研究与发展,2010,47(12):2083-2089)
步骤002中多视图聚类方法包括以下步骤:
步骤00201.输入隐私数据的每个视图数据X(i)(i=1,2,3,4),聚类簇数目期望值K,调节参数γ。
步骤00202.随机填充矩阵G使得每行恰有一个1,其余全为0;生成对角矩阵D(i)。
步骤00203.计算对角阵
步骤00204.更新中心矩阵
步骤00205.更新聚类指示矩阵G:
步骤00206.更新对角矩阵其中e(i)j是E(i)=X(i)-GC(i)的第j行。
步骤00207.更新权重其中:
H(i)=Tr{(X(i)-C(i)GT)D(i)(X(i)-C(i)GT)T}。
步骤00208.重复以上步骤直至收敛或超过设定的执行次数。
步骤00209.输出聚类指示矩阵G,各视图的聚类中心矩阵C(i)及权重λ(i),i=1,2,3,4。
本发明用平均偏序隐私层号和平均相对隐私秩,作为多视图聚类簇的敏感性评估准则。由偏序隐私层的意义可知,其层号越大,敏感性越高;而相对隐私秩是同一个极小隐私集内刻画隐私数据间敏感性强弱关系测度,因此用平均偏序隐私层号和平均相对隐私秩评估聚类簇敏感性是合理的。聚类簇的敏感性评估过程中,平均偏序隐私层号和平均相对隐私秩分别作为主、次关键字,即偏序隐私层的优先级大于相对隐私秩。
关于对不同敏感度的聚类簇,本发明选取经典的k-匿名算法对不同簇进行保护。在k-匿名算法中,k值代表不可区别的记录条数,其值是保护能力强弱的直接指标,k的取值越大,保护程度越高,反之则保护能力越低。步骤003其具体包括以下步骤,具体流程图如图4。
步骤00301.输入隐私数据集D,包括原始数据记录表和对应的隐私度记录表以及多视图聚类簇数目期望值K及调节参数γ;
步骤00302.对S进行主成分分析,取第一主成分系数u(1)=(u1,u2,…,un)作为属性敏感度;
步骤00303.求S每行记录sj=(sj1,sj2,…,sjn)的元组敏感度置Ts=(S1,S2,…,Sm)T;
步骤00304.用步骤001中的方法求出D的隐私线序集Q;
步骤00305.置X(1)=A,X(2)=S,X(3)=Ts,X(4)=Q,X={X(i)|i=1,2,3,4};
步骤00306.用步骤002中的算法求出G,C,λ其中,G为聚类指示矩阵,C={C(i)|i=1,2,3,4}是每个视图的聚类中心,λ={λ(i)|i=1,2,3,4}为每个视图的权重;
步骤00307.基于Q,计算每个聚类簇对应的平均偏序隐私层号和平均相对隐私秩;
步骤00308.分别以平均偏序隐私层号和平均相对隐私秩为主、次关键字,对聚类簇降序排序,排序后的聚类簇序列记为V=(v1,v2,…,vK);
步骤00309.产生K以内可重复的K个随机正整数序列R,并降序排序得R=(r1,r2,…,rK);
步骤00310.定义数据集合A',用以存放匿名后的数据,并置A'为空;
步骤00311.重复以下步骤m次:
1)取A中的第t条记录at;
2)基于G,查找at所属聚类簇vp;
3)求vp的平均隐私度avgp;
4)取at的隐私度高于avgp属性作为敏感属性,其余作为准标识符;
5)对at进行rp-匿名操作,匿名后的记录存入A';
步骤00312.输出保护后的发布数据A'。
Claims (1)
1.一种面向多视图聚类挖掘的个性化隐私保护方法,其特征在于,包含以下步骤:
步骤一 定义隐私关系;隐私数据集合D中的一条记录为多重组d=(d1,d2,…,dn),序偶di=<ai,si>∈d,ai为字段Ai上的原始数据值,si为ai对应的隐私度;称卡氏积D×D的下述子集为D上的隐私关系:
R={<d,d'>|d,d'∈D,di=<ai,si>∈d,d'i=<a'i,s'i>∈d',且si≥s'i};若D上的两条记录d和d'具有隐私关系,即<d,d'>∈R,记为:d≥d';
步骤二 输入隐私数据集D,包括每个视图数据X(i)(i=1,2,3,4),原始数据记录表和对应的隐私度记录表聚类簇数目期望值K,调节参数γ;
初始化队列Q为空,置偏序隐私层L=1,并生成隐私偏序集<D',R'>;其中,记A'=(Ai,Ai+1,……,Ai+k)为原始数据模型A的一个属性子集(k≤n),对应的隐私度子模式为S'=(Si,Si+1,……,Si+k),D中每条记录去掉A'和S'中未出现的属性字段后所得的子集记为D',并设R'为D'上的隐私关系,则称序偶<D',R'>为隐私偏序集合,简称隐私偏序;若数据集合对于隐私数据b∈B,且B中不存在隐私数据x,使得b≠x且b≥x,那么隐私数据b∈B称为B的一个极小隐私元;B的所有极小隐私元构成的集合为B的极小隐私集;隐私数据集的第一个极小隐私集对应的偏序隐私层数为1,删掉第一个极小隐私集后,剩余数据集的极小隐私集对应的层数为2,依次类推,层数逐次增加1,直到删完所有数据为止;
步骤三 判断D是否为空,若为空则得到隐私线序集Q,Q中存储三类值:隐私数据记录指针、偏序隐私层号和相对隐私秩,若D不为空执行下一步;
步骤四 求解D的极小隐私集E,置E'=E,,计算e在E内的相对隐私秩;其中,极小隐私集E中隐私秩最小的隐私数据e为B的一个首隐私极元;记隐私数据d的隐私秩为:
<mrow>
<mo>|</mo>
<mi>d</mi>
<mo>></mo>
<mo>=</mo>
<mo>-</mo>
<munder>
<mo>&Sigma;</mo>
<mrow>
<msup>
<mi>d</mi>
<mo>&prime;</mo>
</msup>
<mo>&Element;</mo>
<mi>D</mi>
</mrow>
</munder>
<munder>
<mrow>
<mi>s</mi>
<mi>i</mi>
<mi>g</mi>
<mi>n</mi>
<mrow>
<mo>(</mo>
<mi>d</mi>
<mo>-</mo>
<msup>
<mi>d</mi>
<mo>&prime;</mo>
</msup>
<mo>)</mo>
</mrow>
<mo>|</mo>
</mrow>
<mo>&OverBar;</mo>
</munder>
</mrow>
式中,d和d'为给定含n个属性的两条隐私数据,二者对应各属性的隐私度分别为s=(s1,s2,…,sn)和s'=(s'1,s'2,…,s'n);|>为求给定隐私数据的隐私秩的专用符号;符号表示若x>0,则置x=0;sign()为符号函数;
步骤五 任选E'内一个首隐私极元e,并置Q队尾节点的记录指针指向e,层数为L,置相对隐私秩为|e>;置E'=E'-{e},判断E'是否为空,若不为空,反复本步骤;
步骤六 置D=D-E,偏序隐私层数L=L+1,判断D是否为空,若不为空返回步骤三;
步骤七 从步骤二中得到每个视图数据X(i)(i=1,2,3,4),聚类簇数目期望值K,调节参数γ;
步骤八 随机填充矩阵G使得每行恰有一个1,其余全为0;生成对角矩阵D(i);
步骤九 计算对角阵
步骤十 更新中心矩阵
步骤十一 更新聚类指示矩阵G:
<mrow>
<mtable>
<mtr>
<mtd>
<mrow>
<munder>
<mrow>
<mi>m</mi>
<mi>i</mi>
<mi>n</mi>
</mrow>
<mi>G</mi>
</munder>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mn>4</mn>
</munderover>
<msup>
<mover>
<mi>D</mi>
<mo>~</mo>
</mover>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
</msup>
<mo>|</mo>
<mo>|</mo>
<msup>
<mi>X</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
</msup>
<mo>-</mo>
<msup>
<mi>C</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
</msup>
<mi>G</mi>
<mo>|</mo>
<msubsup>
<mo>|</mo>
<mn>2</mn>
<mn>2</mn>
</msubsup>
<mo>,</mo>
</mrow>
</mtd>
<mtd>
<mrow>
<mi>s</mi>
<mo>.</mo>
<mi>t</mi>
<mo>.</mo>
</mrow>
</mtd>
<mtd>
<mrow>
<msub>
<mi>G</mi>
<mrow>
<mi>j</mi>
<mi>k</mi>
</mrow>
</msub>
<mo>&Element;</mo>
<mo>{</mo>
<mn>0</mn>
<mo>,</mo>
<mn>1</mn>
<mo>}</mo>
<mo>,</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>k</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>K</mi>
</munderover>
<msub>
<mi>G</mi>
<mrow>
<mi>j</mi>
<mi>k</mi>
</mrow>
</msub>
<mo>=</mo>
<mn>1</mn>
</mrow>
</mtd>
</mtr>
</mtable>
<mo>;</mo>
</mrow>
步骤十二 更新对角矩阵其中e(i)j是E(i)=X(i)-GC(i)的第j行;
步骤十三 更新权重其中:
H(i)=Tr{(X(i)-C(i)GT)D(i)(X(i)-C(i)GT)T};
步骤十四 重复步骤七至步骤十三,直至收敛或超过设定的执行次数;
步骤十五 得到聚类指示矩阵G,各视图的聚类中心矩阵C(i)及权重λ(i),i=1,2,3,4;
步骤十六 对S进行主成分分析,取第一主成分系数u(1)=(u1,u2,…,un)作为属性敏感度;
步骤十七 求S每行记录sj=(sj1,sj2,…,sjn)的元组敏感度置Ts=(S1,S2,…,Sm)T;
步骤十八 记第i个视图的样本矩阵表示为X(i),构造如下所示的多视图K-均值聚类目标函数:
<mrow>
<munder>
<mrow>
<mi>m</mi>
<mi>i</mi>
<mi>n</mi>
</mrow>
<mrow>
<msup>
<mi>C</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
</msup>
<mo>,</mo>
<mi>G</mi>
<mo>,</mo>
<msup>
<mi>&lambda;</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
</msup>
</mrow>
</munder>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>M</mi>
</munderover>
<msup>
<mrow>
<mo>(</mo>
<msup>
<mi>&lambda;</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
</msup>
<mo>)</mo>
</mrow>
<mi>&gamma;</mi>
</msup>
<mo>|</mo>
<mo>|</mo>
<msup>
<mi>X</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
</msup>
<mo>-</mo>
<msup>
<mi>GC</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
</msup>
<mo>|</mo>
<msub>
<mo>|</mo>
<mn>2</mn>
</msub>
<mo>,</mo>
</mrow>
<mrow>
<mtable>
<mtr>
<mtd>
<mrow>
<mi>s</mi>
<mo>.</mo>
<mi>t</mi>
<mo>.</mo>
</mrow>
</mtd>
<mtd>
<mrow>
<msub>
<mi>G</mi>
<mrow>
<mi>j</mi>
<mi>k</mi>
</mrow>
</msub>
<mo>&Element;</mo>
<mo>{</mo>
<mn>0</mn>
<mo>,</mo>
<mn>1</mn>
<mo>}</mo>
<mo>,</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>k</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>K</mi>
</munderover>
<msub>
<mi>G</mi>
<mrow>
<mi>j</mi>
<mi>k</mi>
</mrow>
</msub>
<mo>=</mo>
<mn>1</mn>
<mo>,</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>M</mi>
</munderover>
<msup>
<mi>&lambda;</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
</msup>
<mo>=</mo>
<mn>1</mn>
</mrow>
</mtd>
</mtr>
</mtable>
<mo>;</mo>
</mrow>
式中,C(i)为第i个视图的聚类中心矩阵;G为聚类指示矩阵,由约束条件知,其每行恰有一个1,其余全为0,若Gjk=1,表明第j个样本在第k个聚类簇中;λ(i)为第i个视图的权重;γ是控制权重分布的调节参数。M为视图个数,本发明包括原始数据、隐私度、元组敏感度和隐私线序集等4个视图;
置X(1)=A,X(2)=S,X(3)=Ts,X(4)=Q,X={X(i)|i=1,2,3,4};
步骤十九 分别以平均偏序隐私层号和平均相对隐私秩为主、次关键字,对聚类簇降序排序,排序后的聚类簇序列记为V=(v1,v2,…,vK);
步骤二十 产生K以内可重复的K个随机正整数序列R,并降序排序得R=(r1,r2,…,rK);
步骤二十一 定义数据集合A',用以存放匿名后的数据,并置A'为空;
步骤二十二 取A中的第t条记录at;基于G,查找at所属聚类簇vp;求vp的平均隐私度avgp;取at的隐私度高于avgp属性作为敏感属性,其余作为准标识符;对at进行rp-匿名操作,匿名后的记录存入A';重复步骤二十二m次,然后输出保护后的发布数据A'。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710717235.6A CN107688752B (zh) | 2017-08-21 | 2017-08-21 | 一种面向多视图聚类挖掘的个性化隐私保护方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710717235.6A CN107688752B (zh) | 2017-08-21 | 2017-08-21 | 一种面向多视图聚类挖掘的个性化隐私保护方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107688752A true CN107688752A (zh) | 2018-02-13 |
CN107688752B CN107688752B (zh) | 2020-11-20 |
Family
ID=61153479
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710717235.6A Active CN107688752B (zh) | 2017-08-21 | 2017-08-21 | 一种面向多视图聚类挖掘的个性化隐私保护方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107688752B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108776763A (zh) * | 2018-06-08 | 2018-11-09 | 哈尔滨工程大学 | 一种基于属性相关的差分隐私保护方法 |
CN109064373A (zh) * | 2018-07-17 | 2018-12-21 | 大连理工大学 | 一种基于外包图像数据录入的隐私保护方法 |
CN110069947A (zh) * | 2019-04-22 | 2019-07-30 | 鹏城实验室 | 图片隐私的预测方法及装置、存储介质及电子设备 |
CN110399746A (zh) * | 2019-07-15 | 2019-11-01 | 北京邮电大学 | 一种基于敏感度分级的匿名数据发布方法及装置 |
CN110807208A (zh) * | 2019-10-31 | 2020-02-18 | 北京工业大学 | 一种满足用户个性化需求的k匿名隐私保护方法 |
CN114817977A (zh) * | 2022-03-18 | 2022-07-29 | 西安电子科技大学 | 基于敏感属性值约束的匿名保护方法 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101814119A (zh) * | 2010-02-13 | 2010-08-25 | 武汉理工大学 | 具有隐私保护的用户模型构建方法 |
CN101964034A (zh) * | 2010-09-30 | 2011-02-02 | 浙江大学 | 一种模式信息损失最小化的序列类数据隐私保护方法 |
CN102542209A (zh) * | 2010-12-21 | 2012-07-04 | 日电(中国)有限公司 | 数据匿名方法和系统 |
US20130291118A1 (en) * | 2012-04-28 | 2013-10-31 | International Business Machines Corporation | Protecting privacy data in mapreduce system |
EP2725538A1 (en) * | 2012-10-24 | 2014-04-30 | Alcatel-Lucent | Privacy protected dynamic clustering of end users |
CN103825743A (zh) * | 2014-02-13 | 2014-05-28 | 南京邮电大学 | 一种具有隐私保护功能的数据安全聚合方法 |
CN104216994A (zh) * | 2014-09-10 | 2014-12-17 | 华中科技大学 | 一种列联表数据发布的隐私保护方法 |
JP2015114871A (ja) * | 2013-12-12 | 2015-06-22 | Kddi株式会社 | 公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラム |
CN105512566A (zh) * | 2015-11-27 | 2016-04-20 | 电子科技大学 | 一种基于k-匿名的健康数据隐私保护方法 |
CN105701418A (zh) * | 2016-01-15 | 2016-06-22 | 西安交通大学 | 一种基于空间序列数据分析的用户轨迹隐私保护方法 |
CN106778314A (zh) * | 2017-03-01 | 2017-05-31 | 全球能源互联网研究院 | 一种基于k‑means的分布式差分隐私保护方法 |
CN106940777A (zh) * | 2017-02-16 | 2017-07-11 | 湖南宸瀚信息科技有限责任公司 | 一种基于敏感信息度量的身份信息隐私保护方法 |
-
2017
- 2017-08-21 CN CN201710717235.6A patent/CN107688752B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101814119A (zh) * | 2010-02-13 | 2010-08-25 | 武汉理工大学 | 具有隐私保护的用户模型构建方法 |
CN101964034A (zh) * | 2010-09-30 | 2011-02-02 | 浙江大学 | 一种模式信息损失最小化的序列类数据隐私保护方法 |
CN102542209A (zh) * | 2010-12-21 | 2012-07-04 | 日电(中国)有限公司 | 数据匿名方法和系统 |
US20130291118A1 (en) * | 2012-04-28 | 2013-10-31 | International Business Machines Corporation | Protecting privacy data in mapreduce system |
EP2725538A1 (en) * | 2012-10-24 | 2014-04-30 | Alcatel-Lucent | Privacy protected dynamic clustering of end users |
JP2015114871A (ja) * | 2013-12-12 | 2015-06-22 | Kddi株式会社 | 公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラム |
CN103825743A (zh) * | 2014-02-13 | 2014-05-28 | 南京邮电大学 | 一种具有隐私保护功能的数据安全聚合方法 |
CN104216994A (zh) * | 2014-09-10 | 2014-12-17 | 华中科技大学 | 一种列联表数据发布的隐私保护方法 |
CN105512566A (zh) * | 2015-11-27 | 2016-04-20 | 电子科技大学 | 一种基于k-匿名的健康数据隐私保护方法 |
CN105701418A (zh) * | 2016-01-15 | 2016-06-22 | 西安交通大学 | 一种基于空间序列数据分析的用户轨迹隐私保护方法 |
CN106940777A (zh) * | 2017-02-16 | 2017-07-11 | 湖南宸瀚信息科技有限责任公司 | 一种基于敏感信息度量的身份信息隐私保护方法 |
CN106778314A (zh) * | 2017-03-01 | 2017-05-31 | 全球能源互联网研究院 | 一种基于k‑means的分布式差分隐私保护方法 |
Non-Patent Citations (6)
Title |
---|
LIU,QH 等: "A Privacy-preserving Data Publishing Method for Multiple Numerical Sensitive Attributes via Clustering and Multi-Sensitive Bucketization", 《6TH INTERNATIONAL SYMPOSIUM ON PARALLEL ARCHITECTURES, ALGORITHMS, AND PROGRAMMING (PAAP)》 * |
RAO,FY 等: "Privacy-Preserving and Outsourced Multi-User k-Means Clustering", 《IEEE CONFERENCE COLLABORATION INTERNET COMPUTING》 * |
SILVA,A 等: "Privacy-Preserving Multi-Party Clustering: An Empirical Study", 《10TH IEEE INTERNATIONAL CONFERENCE ON CLOUD COMPUTING (CLOUD)》 * |
张冰 等: "面向敏感性攻击的多敏感属性数据逆聚类隐私保护方法", 《电子学报》 * |
李洪成 等: "MapReduce框架下支持差分隐私保护的k-means聚类方法", 《通信学报》 * |
杨丹凤 等: "分布式数据隐私保护K-均值聚类算法", 《计算机与数字工程》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108776763A (zh) * | 2018-06-08 | 2018-11-09 | 哈尔滨工程大学 | 一种基于属性相关的差分隐私保护方法 |
CN109064373A (zh) * | 2018-07-17 | 2018-12-21 | 大连理工大学 | 一种基于外包图像数据录入的隐私保护方法 |
CN110069947A (zh) * | 2019-04-22 | 2019-07-30 | 鹏城实验室 | 图片隐私的预测方法及装置、存储介质及电子设备 |
CN110399746A (zh) * | 2019-07-15 | 2019-11-01 | 北京邮电大学 | 一种基于敏感度分级的匿名数据发布方法及装置 |
CN110807208A (zh) * | 2019-10-31 | 2020-02-18 | 北京工业大学 | 一种满足用户个性化需求的k匿名隐私保护方法 |
CN114817977A (zh) * | 2022-03-18 | 2022-07-29 | 西安电子科技大学 | 基于敏感属性值约束的匿名保护方法 |
CN114817977B (zh) * | 2022-03-18 | 2024-03-29 | 西安电子科技大学 | 基于敏感属性值约束的匿名保护方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107688752B (zh) | 2020-11-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107688752B (zh) | 一种面向多视图聚类挖掘的个性化隐私保护方法 | |
Zhang et al. | Correlated differential privacy: Feature selection in machine learning | |
Zhu et al. | Differentially private data publishing and analysis: A survey | |
CN105005589B (zh) | 一种文本分类的方法和装置 | |
Loukides et al. | Capturing data usefulness and privacy protection in k-anonymisation | |
CN106778314A (zh) | 一种基于k‑means的分布式差分隐私保护方法 | |
CN109117669B (zh) | MapReduce相似连接查询的隐私保护方法及系统 | |
CN107423820B (zh) | 结合实体层次类别的知识图谱表示学习方法 | |
CN106528608B (zh) | 一种云架构下的电网gis数据冷热存储方法和系统 | |
Christ et al. | Differential privacy and swapping: Examining de-identification’s impact on minority representation and privacy preservation in the US census | |
CN112667712B (zh) | 一种基于差分隐私的分组精准直方图数据发布方法 | |
CN113468560A (zh) | 数据保护方法、装置及服务器 | |
CN107070932B (zh) | 社会网络动态发布中防止标签邻居攻击的匿名方法 | |
CN115438227A (zh) | 一种基于差分隐私和紧密度中心性的网络数据发布方法 | |
Peng et al. | An integrated feature selection and classification scheme | |
Wang et al. | A novel data distortion approach via selective SSVD for privacy protection | |
WO2014112045A1 (ja) | 秘匿化データ生成方法及び装置 | |
Qi et al. | Fast generating A large number of gumbel-max variables | |
CN113553612A (zh) | 一种基于移动群智感知技术的隐私保护方法 | |
Guo et al. | The FRCK clustering algorithm for determining cluster number and removing outliers automatically | |
CN110990869A (zh) | 一种应用于隐私保护的电力大数据脱敏方法 | |
Chen et al. | Protecting sensitive labels in weighted social networks | |
Ji et al. | An improved random walk based community detection algorithm | |
Lin et al. | Privacy-preserving SRS data anonymization by incorporating missing values | |
CN104636498B (zh) | 一种基于信息瓶颈的模糊三维聚类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |