CN106940777B - 一种基于敏感信息度量的身份信息隐私保护方法 - Google Patents

一种基于敏感信息度量的身份信息隐私保护方法 Download PDF

Info

Publication number
CN106940777B
CN106940777B CN201710082886.2A CN201710082886A CN106940777B CN 106940777 B CN106940777 B CN 106940777B CN 201710082886 A CN201710082886 A CN 201710082886A CN 106940777 B CN106940777 B CN 106940777B
Authority
CN
China
Prior art keywords
identity
user
data set
sensitive
attack
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710082886.2A
Other languages
English (en)
Other versions
CN106940777A (zh
Inventor
曹宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Chenhan Information Technology Co ltd
Original Assignee
Hunan Chenhan Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Chenhan Information Technology Co ltd filed Critical Hunan Chenhan Information Technology Co ltd
Priority to CN201710082886.2A priority Critical patent/CN106940777B/zh
Publication of CN106940777A publication Critical patent/CN106940777A/zh
Application granted granted Critical
Publication of CN106940777B publication Critical patent/CN106940777B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2135Metering

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于敏感信息度量的身份信息隐私保护方法包括如下步骤:S1,确定输入输出;S2,定义身份重要度并计算出身份重要度;S3,优化身份重要度;S4,计算敏感信息披露矩阵、最小攻击集、信息披露概率;S5,确定泛化函数,对数据集泛化;S6,建立避免背景知识攻击隐私保护模型;S7,描述(γ,η)‑Risk匿名算法,输入原始数据集D,输出匿名数据集D′;S8,引入置信区间,将攻击方的高概率推断攻击控制在指定置信区间内,避免攻击者使用属性分布函数计算用户身份信息统计特征后进行高概率推断攻击。本发明解决了现有隐私保护方法难以有效应对基于背景知识攻击的隐私信息攻击问题,对关键身份和身份敏感信息保护更加全面、有效。

Description

一种基于敏感信息度量的身份信息隐私保护方法
技术领域
本发明涉及网络空间安全中用户身份信息隐私保护方法,,具体涉及一种基于敏感信息度量的身份信息隐私保护方法。
背景技术
网络应用的飞速发展使得用户面临的身份盗用和身份信息泄露威胁以及应用和服务面临的来自外部和内部的身份安全威胁越来越严重,如何解决身份盗用和身份信息泄露是当前的研究热点。要解决身份信息泄露问题,仅仅提供完善的身份鉴别和授权流程和安全的信息传输是不够的,还需要对应用间以及应用与用户之间互相披露的信息进行保护。
隐私保护解决身份信息泄露问题的重要手段,隐私保护是指对已发布数据的访问并不能使攻击方获取关于任何用户的任何信息,即使攻击方拥有从其他渠道获取到的用户背景知识,无论是否发布数据,用户的隐私风险始终保持一致。隐私保护要符合匿名性、非追踪性、非关联性、不可推断性、机密性、似真否认等原则。传统的隐私保护技术包括基于数据失真(distorting)的技术、基于数据加密的技术、基于限制发布的技术。这些技术各有其优缺点,基于数据失真的技术具有较高的效率,但存在一定程度的信息丢失;基于数据加密的技术能够保证最终数据的准确性和安全性,但计算开销大,效率较低;基于限制发布的技术能够保证发布数据的真实性,同样,发布的数据存在一定程度的信息丢失。
隐私保护的目的是确保攻击方无法以较高的概率(置信度)推断出攻击目标的敏感信息。在实际应用中,出于研究和分析目的,通常需要发布包含用户信息的数据集,在数据发布过程中,数据发布方需要对待发布数据集中敏感属性进行匿名化处理,隐藏原始数据,发布匿名化后的数据,不泄露数据中包含的用户敏感属性,从而实现隐私保护的目标;另一方面,由于研究和分析数据的需求,数据发布方必须保证匿名化后的数据仍然保持原始数据的部分统计特征,保证匿名数据集的可用性;从而,在实际实现中,隐私保护算法需要平衡隐私保护和匿名数据可用性两方面的矛盾。
身份及身份属性面临的威胁除了传统的数据隐私泄露威胁——敏感身份属性泄露,还包括通过推理得知重要用户(网络管理员、企业高层管理人员等权限较高的用户)的身份标识,进而对重要用户进行重点数据挖掘,这一方面会使得攻击方获得更高的系统访问权限,另一方面对重要用户本身也是一种伤害(包括人身伤害和精神伤害,如斩首行动等)。
考虑到对所有身份信息进行全面完整的保护在技术实现上的困难性和非必要性,首先需要研究评估用户身份信息重要程度的方法,从而明确保护对象;然后,研究数据发布过程中的隐私保护技术,对要披露的用户信息进行匿名化处理,避免对用户身份的背景知识攻击,将身份盗用和身份信息泄露的风险控制在可接受的概率范围内。由以上分析可知,身份信息管理还面临着技术难题,目前针对身份管理技术的研究很少,大多处于摸索阶段。
发明内容
针对现有技术的不足,本发明旨在提供一种基于敏感信息度量的身份信息隐私保护方法,该方法首先根据身份引用和身份属性信息引用来度量身份信息敏感程度,对重要用户及身份信息重要程度进行分级,在此基础上,可对用户关键身份和身份敏感信息进行隐私保护。本发明能够解决现有隐私保护方法难以有效应对基于背景知识攻击的隐私信息攻击方法的问题,使得对关键身份和身份敏感信息保护更加全面、有效。给定若干用户的身份信息库,本发明可自动识别出重要身份并确保攻击者无法通过高概率推断获得身份信息。
为了实现上述目的,本发明采用如下技术方案:一种基于敏感信息度量的身份信息隐私保护方法,其特征在于,其包括如下步骤:
S1,确定输入输出;
S2,定义身份重要度并计算出身份重要度;
S3,根据孤立引用和完全引用,优化身份重要度;
S4,计算出敏感信息披露矩阵、最小攻击集、信息披露概率;
S5,确定泛化函数,并对数据集泛化;
S6,建立避免背景知识攻击的隐私保护模型;
S7,描述(γ,η)-Risk匿名算法,输入原始数据集D,输出匿名数据集D′;
S8,引入置信区间,将攻击方的高概率推断攻击控制在指定的置信区间内,避免攻击者使用属性分布函数计算用户身份信息统计特征后进行高概率推断攻击;
所述步骤S1中确定输入输出的过程如下:
S11.首先记身份信息数据库为Did,应用程序数据库为Aid
S12.定义身份信息引用:假设c是某一特定身份信息,A是某一特定应用,FA是当前应用环境下所有应用的集合;
Figure GDA0002711462640000021
如果A引用了c,那么,存在一个从A到c的身份信息引用和一个从c到A的反向引用;
S13.定义身份信息引用矩阵:构造一个矩阵MID,每一列表示用户U的一个身份信息,每一行表示一个应用,元素值表示在应用Ai和身份信息c之间存在一个身份信息引用,即:
Figure GDA0002711462640000031
那么,可得用户U的身份信息引用矩阵MID
Figure GDA0002711462640000032
S14.定义身份引用:假设a是一个用户在某些应用中的身份标识符,A是某一特定应用,FA是当前应用环境下所有应用的集合;
Figure GDA0002711462640000035
如果A引用了a,那么,存在一个从A到a的身份引用,另外还存在一个从a到A的反向引用;
S15.定义身份引用矩阵:构造一个矩阵M′ID,矩阵的行和列均代表某一应用,矩阵元素值表示在应用Ai和Aj之间存在一个身份标识符引用,那么,可得用户U的身份标识符引用矩阵M′ID,其中身份标识符引用矩阵M′ID对角线元素恒为1;对身份信息重要性的度量等同于对包括身份标识符在内的每一个身份信息的度量,即与该身份信息存在引用关系的应用的度量为身份标识符引用矩阵M′ID,可由如下公式计算出:
Figure GDA0002711462640000033
其中,NA表示用户U的身份信息总数,NID表示用户U的应用总数;
所述步骤S2中定义身份重要度并计算出身份重要度的具体过程如下:
S21.定义身份重要度:假设A是一个应用,FA是A引用的所有标识符的集合,BA是所有与A有引用关系的应用的集合,CA是BA中所有应用所包含用户的身份标识符集合,ID为用户身份标识符,FA中的标识符是CA的一个子集,即
Figure GDA0002711462640000036
ID=ID′,NA是集合FA中各个标识符的引用次数的集合,那么应用A的IIV值迭代定义为:
Figure GDA0002711462640000034
S22.IIV值计算过程中引入了常数q来表征不能被其他任何应用引用的应用的IIV值,常数q不为0;修正IIV计算公式为:
Figure GDA0002711462640000041
其中,u表示应用u,v表示应用v,Bu表示所有与u有引用关系的应用的集合,q为常数,表示IIV最小初始值,M是全网的应用数目;
S23.对身份信息引用矩阵MID作归一化处理,得到转移概率矩阵P:
Figure GDA0002711462640000042
S24.求MID的归一化:P=norm(M′ID)
S25.计算P的特征值D和特征向量V:[V,D]=eig(P);
S26.求最大特征值M为:M=find(abs(diag(D)))==max(abs(diag(D)));
S27.计算特征值最大的特征向量:EigenVector=V(:,M);
S28.归一化特征向量为:IIV=EigenVector./norm(EigenVector,1);
所述步骤S3中根据孤立引用和完全引用,优化身份重要度的具体过程如下:完全引用和孤立引用生成的转换矩阵P;且引入用户向量来计算IIV值,用户向量被所有应用引用;
所述步骤S4中计算出敏感信息披露矩阵、最小攻击集、信息披露概率的具体过程如下:
S41.敏感信息披露矩阵:对一个包含N个应用的应用域DAPP,应用APPi向第三方应用披露的用户敏感信息矩阵如下所示:
Figure GDA0002711462640000043
其中
Figure GDA0002711462640000044
表示应用APPi是否向应用APPj披露了用户敏感信息,如果有,该值为1,否则,该值为0;敏感信息披露矩阵是身份信息引用矩阵的一个子集,敏感信息披露矩阵可有效反映用户面临的身份信息披露风险的来源和目的地;
S42.最小攻击集IAttack:用最小攻击集构建完整用户身份信息,其是实现用户身份伪造所需获取的身份披露信息的最小集合,定义为:IAttack={I1,...,IN};最小攻击集IAttack用于确定用户身份信息在应用环境中传播的广泛性;其中,最小攻击集元素越少,用户身份信息传播的越广泛,攻击方获取最小攻击集伪造用户身份的概率越高,身份泄漏的风险越大;反之,攻击方攻击成本越高,用户身份泄漏的风险越低;
S43.信息披露概率:即攻击方成功获取最小攻击集IAttack的概率;对于一个包含N个应用的应用域DAPP,令包含最小攻击集内元素的应用集合为
Figure GDA0002711462640000053
攻击方攻击IAttack内身份信息Ii成功的概率为
Figure GDA0002711462640000054
则信息披露概率p为:
Figure GDA0002711462640000055
所述步骤S5中确定泛化函数,并对数据集泛化的具体过程如下:
S51.待发布原始数据集合:包含所有用户原始身份和属性信息的集合,记作T;
S52.待发布敏感数据集合:待发布原始数据集合中关键用户身份和身份敏感信息数据的集合,记作D;
S53.待发布非敏感数据集合:待发布原始数据集合中非敏感数据集合,记作S;待发布原始数据集合T=D∪S;
S54.泛化函数:对给定的数据v,v的泛化函数Ψ(v)返回v的所有泛化值;采用DGH结构来实现泛化函数Ψ,其中Ψ(China)={China,EastAsia,Asia,*};对于元组t和t′,当t′i∈Ψ(ti)时,t′∈Ψ(t),其中i∈QID,QID是用户的准标识符集合;
S55.数据集泛化:给定敏感数据集D和数据集D′,当且仅当:|D|=|D′|且D′ij∈Ψ(Dij),i∈QID,0<j<N,N为用户属性个数;此时,D′是D的泛化数据集,其中元组d=D[·]j与元组d'=D'[.]j相互关联,记为
Figure GDA0002711462640000052
S55.非覆盖泛化:给定数据集D和D的泛化D′,D′是D的非覆盖泛化,当且仅当:对于D′中的任意两个元组d′1,d′2,d′1≠d′2,D中的任意一个元组d都不能同时满足d′1∈Ψ(d),d′2∈Ψ(d);非覆盖泛化实际上是指,对于数据集D中的任意一个元组只能在数据集D的匿名化集合D′中找到唯一对应的泛化元组;T′和T″都是T的非覆盖泛化,D″也是D的非覆盖泛化;
S56.等价泛化:数据集D′1、D′2分别为数据集D1、D2对应的非覆盖泛化,D′1和D′2是等价泛化,当:
(1)
Figure GDA0002711462640000051
(2)如果d′1∈Ψ(d2)或d′2∈Ψ(d1),则d′1=d′2
S57.k-anonymity匿名:对数据集D的匿名数据集D′,D′为k-anonymity数据集,当且仅当对任意准标识符i∈QID,D′i至少出现k次;
所述步骤S6中建立避免背景知识攻击的隐私保护模型的具体过程如下:
S61.原子:对任意用户ui及其敏感属性值
Figure GDA0002711462640000063
对应的原始数据集中的记录di,原子表示公式:
Figure GDA0002711462640000064
原子将用户和用户的敏感属性关联起来;
S62.基本背景知识:基本背景知识是由原子组成的公式:∧iAi→∨iBj,其中Ai和Bj都是原子,i∈{1,...,M},j∈{1,...,N},M和N表示原子的数目;
S63.背景知识:背景知识K是由若干条基本背景知识组成,攻击方关于用户u的背景知识Ku定义为
Figure GDA0002711462640000065
Figure GDA0002711462640000066
表示分类树TR中包含
Figure GDA0002711462640000067
的父节点,l为用户准标识符集合中元素数量,m为用户敏感属性值集合中元素数量,S为用户敏感属性值集合,
Figure GDA0002711462640000068
表示攻击者关于用户第i个准标识符的背景知识,
Figure GDA0002711462640000069
表示攻击者关于用户第j个敏感属性值的背景知识;
S64.准标识符等价类:数据集D中的准标识符相似等价类GQID是对数据集D按照准标识符进行的一个划分,其中对
Figure GDA00027114626400000610
N为数据集D划分得到的准标识符等价类的数目;原始数据集D的一个准标识符等价划分得到集合T和S,T和S都是D的准标识符等价类;
S65.准标识符属性映射:对数据集D的准标识符等价类划分
Figure GDA00027114626400000611
准标识符属性映射pt定义为pt:G→G,该映射满足:
(1)
Figure GDA0002711462640000061
(2)
Figure GDA0002711462640000062
(3)pt(G)=G;
S66.(γ,η)-Risk匿名:给定待发布原始数据集D、等价泛化数据集D′及其准标识符等价类划分
Figure GDA00027114626400000612
用户集合U,若G中所有准标识符等价类
Figure GDA00027114626400000613
中记录均满足对
Figure GDA00027114626400000614
d′u∈D,有:
Figure GDA00027114626400000615
Figure GDA00027114626400000616
数据集D′是数据集D的(γ,η)-Risk匿名;
其中,
Figure GDA00027114626400000617
Figure GDA00027114626400000618
中所有敏感属性类别的数量,
Figure GDA00027114626400000619
Figure GDA00027114626400000620
中所拥有的不同敏感属性类别的集合,
Figure GDA0002711462640000079
是该集合的基数,
Figure GDA00027114626400000710
Figure GDA00027114626400000711
中敏感属性的属性值为某一类别Cu的所有记录的条数,
Figure GDA00027114626400000712
Figure GDA00027114626400000713
中敏感属性的属性值属于某一类别Cu的不同敏感属性值集合;
所述步骤S7中描述(γ,η)-Risk匿名算法,输入原始数据集D,输出匿名数据集D′的具体过程如下:
S71.假定
Figure GDA00027114626400000723
CountG=0,统计D中的敏感数据类别得到集合CS,根据CS将D中记录划分成M个敏感类别记录集合
Figure GDA00027114626400000714
每个集合一个敏感类别;
S72.对每个准标识符等价类
Figure GDA00027114626400000715
统计敏感值得到敏感值集合VS并根据VS将每个
Figure GDA00027114626400000716
分为N个敏感值记录集合
Figure GDA00027114626400000717
每个集合一个敏感值,从而D分为M*N个敏感值记录集合;
S73.对给定参数γ,计算
Figure GDA00027114626400000718
Figure GDA0002711462640000071
CountG=CountG+1;
Figure GDA00027114626400000719
For i=1 to γ do
Figure GDA0002711462640000072
Figure GDA00027114626400000724
For j=1 to η do
Figure GDA0002711462640000073
从cj中删除任意一条记录r;
Figure GDA0002711462640000074
S74.对γ个集合
Figure GDA00027114626400000721
汇总归类
Figure GDA00027114626400000722
Figure GDA0002711462640000075
Figure GDA0002711462640000076
Figure GDA0002711462640000077
中剩余的唯一记录;
Figure GDA0002711462640000078
将r放入Rr集合中任一
Figure GDA0002711462640000085
等价类中;
S75.将
Figure GDA0002711462640000086
中准标识符值和敏感属性值记录插入匿名数据集D′:
For j=1 to CountG do
定义集合
Figure GDA0002711462640000081
上的准标识符属性映射ptj
Figure GDA0002711462640000082
Figure GDA0002711462640000083
Figure GDA0002711462640000084
将记录
Figure GDA0002711462640000087
插入D′;
输出D′;
所述步骤S8中引入置信区间,将攻击方的高概率推断攻击控制在指定的置信区间内,避免攻击者使用属性分布函数计算用户身份信息统计特征后进行高概率推断攻击的具体过程如下:
S81.属性分布函数:给定用户集合U,属性集C={c1,...,cn},属性分布函数
Figure GDA0002711462640000088
对给定属性值集合V={v1,...,vn}返回U中的一个用户,即:
Figure GDA0002711462640000089
其中UV∈U并且vi∈Ψ(UV[ci]),i∈[1,n];
S82.置信(γ,η)-Risk匿名:给定敏感数据集D及其等价泛化数据集D′,D的属性分布函数F,置信度α,β∈[0,1],令事件Eγ表示
Figure GDA00027114626400000810
事件Eη表示
Figure GDA00027114626400000811
Figure GDA00027114626400000812
如果
Figure GDA00027114626400000813
都有P(Eγ|F)≥α,P(Fη|F)≥β,P为概率;D′是D的置信度,即为(α,β)的(γ,η)-Risk匿名。
本发明的有益效果在于:
1.在(γ,η)-Risk匿名模型中,具有背景知识Ku的攻击方根据用户u的准标识符属性可以准确推测出用户记录属于哪一个准标识符等价类,即
Figure GDA00027114626400000814
中的i值,同时,攻击方知道用户u的敏感值类别Cu,进而,攻击方推测出du的敏感值必定是
Figure GDA00027114626400000815
中属于类别Cu的敏感值,由于
Figure GDA00027114626400000816
中敏感值类别为Cu的敏感值集合
Figure GDA00027114626400000817
包含η个元素,在没有其他背景知识的情况下,攻击方认为du的敏感值可能是
Figure GDA00027114626400000818
中任一元素,因此,具有背景知识Ku的攻击方获得用户u的敏感属性信息的概率不超过1/η。对于不具有背景知识Ku的攻击方,由于攻击方不知道du的敏感值类别,因此攻击方获得用户u的敏感属性信息的概率不超过1/(γ×η)。
2.在(γ,η)-Risk匿名算法中,在完成步骤S71、步骤S72后和步骤S73完成后,每个非空的敏感类别记录集合
Figure GDA0002711462640000092
中最多包含η-1个非空的敏感值记录集合
Figure GDA0002711462640000093
其中每个非空的敏感值记录集合
Figure GDA0002711462640000094
中有且仅有一条记录。完成步骤S74后,集合Rr中至少存在一个满足(γ,η)匿名的准标识符属性等价类划分。步骤S71和步骤S72完成数据集中记录分组工作,时间复杂度均为O(N),N为数据集D包含的记录条数,步骤S73共执行了
Figure GDA0002711462640000095
次时间复杂度为O(γ×η)的循环,其时间复杂度为
Figure GDA0002711462640000096
步骤S74对剩余记录进行处理,时间复杂度为O(N),步骤S75构造并实现准标识符映射,时间复杂度为O(N),因此算法总的时间复杂度为O(N)。
3.置信(γ,η)-Risk匿名在数据集的每个准标识符等价类上定义了隐私,增加了识别用户身份即将原始数据集和特定用户相关联的难度,尤其是在隐私保护需求需要个性化的场合(如某些隐私需求较高的数据可能需要更高的置信等级),从而增强了数据集的匿名性。
附图说明
图1为本发明的流程示意图。
具体实施方式
以下将结合附图对本发明作进一步的描述,需要说明的是,本实施例以本技术方案为前提,给出了详细的实施方式和具体的操作过程,但本发明的保护范围并不限于本实施例。
如图1所示,本发明一种基于敏感信息度量的身份信息隐私保护方法如下:
S1,确定输入输出;
S11.首先记身份信息数据库为Did,应用程序数据库为Aid
S12.定义身份信息引用:假设c是某一特定身份信息,A是某一特定应用,FA是当前应用环境下所有应用的集合;
Figure GDA0002711462640000097
如果A引用了c,那么,存在一个从A到c的身份信息引用和一个从c到A的反向引用;
S13.定义身份信息引用矩阵:构造一个矩阵MID,每一列表示用户U的一个身份信息,每一行表示一个应用,元素值表示在应用Ai和身份信息c之间存在一个身份信息引用,即:
Figure GDA0002711462640000091
那么,可得用户U的身份信息引用矩阵MID
Figure GDA0002711462640000101
S14.定义身份引用:假设a是一个用户在某些应用中的身份标识符,A是某一特定应用,FA是当前应用环境下所有应用的集合;
Figure GDA0002711462640000105
如果A引用了a,那么,存在一个从A到a的身份引用,另外还存在一个从a到A的反向引用;
S15.定义身份引用矩阵:构造一个矩阵M′ID,矩阵的行和列均代表某一应用,矩阵元素值表示在应用Ai和Aj之间存在一个身份标识符引用,那么,可得用户U的身份标识符引用矩阵M′ID,其中身份标识符引用矩阵M′ID对角线元素恒为1;对身份信息重要性的度量等同于对包括身份标识符在内的每一个身份信息的度量,即与该身份信息存在引用关系的应用的度量为身份标识符引用矩阵M′ID,可由如下公式计算出:
Figure GDA0002711462640000102
S2,定义身份重要度并计算出身份重要度;
S21.定义身份重要度:假设A是一个应用,FA是A引用的所有标识符的集合,BA是所有与A有引用关系的应用的集合,CA是BA中所有应用所包含用户的身份标识符集合,ID为用户身份标识符,FA中的标识符是CA的一个子集,即
Figure GDA0002711462640000106
ID=ID′,NA是集合FA中各个标识符的引用次数的集合,那么应用A的IIV值迭代定义为:
Figure GDA0002711462640000103
S22.IIV值计算过程中引入了常数q来表征不能被其他任何应用引用的应用的IIV值,常数q不为0;修正IIV计算公式为:
Figure GDA0002711462640000104
其中,u表示应用u,v表示应用v,Bu表示所有与u有引用关系的应用的集合,q为常数,表示IIV最小初始值,M是全网的应用数目;
S23.对身份信息引用矩阵MID作归一化处理,得到转移概率矩阵P:
Figure GDA0002711462640000111
S24.求MID的归一化:P=norm(M′ID)
S25.计算P的特征值D和特征向量V:[V,D]=eig(P);
S26.求最大特征值M为:M=find(abs(diag(D)))==max(abs(diag(D)));
S27.计算特征值最大的特征向量:EigenVector=V(:,M);
S28.归一化特征向量为:IIV=EigenVector./norm(EigenVector,1)。
S3,根据孤立引用和完全引用,优化身份重要度;
完全引用和孤立引用生成的转换矩阵P;且引入用户向量来计算IIV值,用户向量被所有应用引用。
S4,计算出敏感信息披露矩阵、最小攻击集、信息披露概率;
S41.敏感信息披露矩阵:对一个包含N个应用的应用域DAPP,应用APPi向第三方应用披露的用户敏感信息矩阵如下所示:
Figure GDA0002711462640000112
其中
Figure GDA0002711462640000113
表示应用APPi是否向应用APPj披露了用户敏感信息,如果有,该值为1,否则,该值为0;敏感信息披露矩阵是身份信息引用矩阵的一个子集,敏感信息披露矩阵可有效反映用户面临的身份信息披露风险的来源和目的地;
S42.最小攻击集IAttack:用最小攻击集构建完整用户身份信息,其是实现用户身份伪造所需获取的身份披露信息的最小集合,定义为:IAttack={I1,...,IN};最小攻击集IAttack用于确定用户身份信息在应用环境中传播的广泛性;其中,最小攻击集元素越少,用户身份信息传播的越广泛,攻击方获取最小攻击集伪造用户身份的概率越高,身份泄漏的风险越大;反之,攻击方攻击成本越高,用户身份泄漏的风险越低;
S43.信息披露概率:即攻击方成功获取最小攻击集IAttack的概率;对于一个包含N个应用的应用域DAPP,令包含最小攻击集内元素的应用集合为
Figure GDA0002711462640000123
攻击方攻击IAttack内身份信息Ii成功的概率为
Figure GDA0002711462640000124
则信息披露概率p为:
Figure GDA0002711462640000125
S5,确定泛化函数,并对数据集泛化;
S51.待发布原始数据集合:包含所有用户原始身份和属性信息的集合,记作T;
S52.待发布敏感数据集合:待发布原始数据集合中关键用户身份和身份敏感信息数据的集合,记作D;
S53.待发布非敏感数据集合:待发布原始数据集合中非敏感数据集合,记作S;待发布原始数据集合T=D∪S;
S54.泛化函数:对给定的数据v,v的泛化函数Ψ(v)返回v的所有泛化值;采用DGH结构来实现泛化函数Ψ,其中Ψ(China)={China,EastAsia,Asia,*};对于元组t和t′,当t′i∈Ψ(ti)时,t′∈Ψ(t),其中i∈QID,QID是用户的准标识符集合;
S55.数据集泛化:给定敏感数据集D和数据集D′,当且仅当:|D|=|D′|且D′ij∈Ψ(Dij),i∈QID,0<j<N,N为用户属性个数;此时,D′是D的泛化数据集,其中元组d=D[·]j与元组d'=D'[·]j相互关联,记为
Figure GDA0002711462640000122
S55.非覆盖泛化:给定数据集D和D的泛化D′,D′是D的非覆盖泛化,当且仅当:对于D′中的任意两个元组d′1,d′2,d′1≠d′2,D中的任意一个元组d都不能同时满足d′1∈Ψ(d),d′2∈Ψ(d);非覆盖泛化实际上是指,对于数据集D中的任意一个元组只能在数据集D的匿名化集合D′中找到唯一对应的泛化元组;T′和T″都是T的非覆盖泛化,D″也是D的非覆盖泛化;
S56.等价泛化:数据集D′1、D′2分别为数据集D1、D2对应的非覆盖泛化,D′1和D′2是等价泛化,当:
(1)
Figure GDA0002711462640000121
(2)如果d′1∈Ψ(d2)或d′2∈Ψ(d1),则d′1=d′2
S57.k-anonymity匿名:对数据集D的匿名数据集D′,D′为k-anonymity数据集,当且仅当对任意准标识符i∈QID,D′i至少出现k次。
S6,建立避免背景知识攻击的隐私保护模型;
S61.原子:对任意用户ui及其敏感属性值
Figure GDA0002711462640000133
对应的原始数据集中的记录di,原子表示公式:
Figure GDA0002711462640000134
原子将用户和用户的敏感属性关联起来;
S62.基本背景知识:基本背景知识是由原子组成的公式:∧iAi→∨iBj,其中Ai和Bj都是原子,i∈{1,...,M},j∈{1,...,N},M和N表示原子的数目;
S63.背景知识:背景知识K是由若干条基本背景知识组成,攻击方关于用户u的背景知识Ku定义为
Figure GDA0002711462640000135
Figure GDA0002711462640000136
表示分类树TR中包含
Figure GDA0002711462640000137
的父节点,l为用户准标识符集合中元素数量,m为用户敏感属性值集合中元素数量,S为用户敏感属性值集合,
Figure GDA0002711462640000138
表示攻击者关于用户第i个准标识符的背景知识,
Figure GDA0002711462640000139
表示攻击者关于用户第j个敏感属性值的背景知识;
S64.准标识符等价类:数据集D中的准标识符相似等价类GQID是对数据集D按照准标识符进行的一个划分,其中对
Figure GDA00027114626400001310
N为数据集D划分得到的准标识符等价类的数目;原始数据集D的一个准标识符等价划分得到集合T和S,T和S都是D的准标识符等价类;
S65.准标识符属性映射:对数据集D的准标识符等价类划分
Figure GDA00027114626400001311
准标识符属性映射pt定义为pt:G→G,该映射满足:
(1)
Figure GDA0002711462640000131
(2)
Figure GDA0002711462640000132
(3)pt(G)=G;
S66.(γ,η)-Risk匿名:给定待发布原始数据集D、等价泛化数据集D′及其准标识符等价类划分
Figure GDA00027114626400001312
用户集合U,若G中所有准标识符等价类
Figure GDA00027114626400001313
中记录均满足对
Figure GDA00027114626400001314
d′u∈D,有:
Figure GDA00027114626400001315
Figure GDA00027114626400001316
数据集D′是数据集D的(γ,η)-Risk匿名;
其中,
Figure GDA00027114626400001317
Figure GDA00027114626400001318
中所有敏感属性类别的数量,
Figure GDA00027114626400001319
Figure GDA00027114626400001320
中所拥有的不同敏感属性类别的集合,
Figure GDA00027114626400001321
是该集合的基数,
Figure GDA00027114626400001322
Figure GDA00027114626400001323
中敏感属性的属性值为某一类别Cu的所有记录的条数,
Figure GDA00027114626400001324
Figure GDA00027114626400001325
中敏感属性的属性值属于某一类别Cu的不同敏感属性值集合。
S7,描述(γ,η)-Risk匿名算法,输入原始数据集D,输出匿名数据集D′:
S71.假定
Figure GDA00027114626400001420
CountG=0,统计D中的敏感数据类别得到集合CS,根据CS将D中记录划分成M个敏感类别记录集合
Figure GDA0002711462640000149
每个集合一个敏感类别;
S72.对每个准标识符等价类
Figure GDA00027114626400001410
统计敏感值得到敏感值集合vS并根据VS将每个
Figure GDA00027114626400001411
分为N个敏感值记录集合
Figure GDA00027114626400001412
每个集合一个敏感值,从而D分为M*N个敏感值记录集合;
S73.对给定参数γ,计算
Figure GDA00027114626400001413
Figure GDA0002711462640000141
CountG=CountG+1;
Figure GDA00027114626400001414
For i=1 to γ do
Figure GDA0002711462640000142
Figure GDA00027114626400001415
For j=1 to η do
Figure GDA0002711462640000143
从cj中删除任意一条记录r;
Figure GDA0002711462640000144
S74.对γ个集合
Figure GDA00027114626400001416
汇总归类
Figure GDA00027114626400001417
Figure GDA0002711462640000145
Figure GDA0002711462640000146
Figure GDA0002711462640000147
中剩余的唯一记录;
Figure GDA0002711462640000148
将r放入Rr集合中任一
Figure GDA00027114626400001418
等价类中;
S75.将
Figure GDA00027114626400001419
中准标识符值和敏感属性值记录插入匿名数据集D′:
For j=1 to CountG do
定义集合
Figure GDA0002711462640000154
上的准标识符属性映射ptj
Figure GDA0002711462640000151
Figure GDA0002711462640000152
Figure GDA0002711462640000153
将记录
Figure GDA0002711462640000155
插入D′;
输出D′。
S8,引入置信区间,将攻击方的高概率推断攻击控制在指定的置信区间内,避免攻击者使用属性分布函数计算用户身份信息统计特征后进行高概率推断攻击:
S81.属性分布函数:给定用户集合U,属性集C={c1,...,cn},属性分布函数
Figure GDA0002711462640000156
对给定属性值集合V={v1,...,vn}返回U中的一个用户,即:
Figure GDA0002711462640000157
其中UV∈U并且vi∈Ψ(UV[ci]),i∈[1,n];
S82.置信(γ,η)-Risk匿名:给定敏感数据集D及其等价泛化数据集D′,D的属性分布函数F,置信度α,β∈[0,1],令事件Eγ表示
Figure GDA0002711462640000158
事件Eη表示
Figure GDA0002711462640000159
Figure GDA00027114626400001510
如果
Figure GDA00027114626400001511
都有P(Eγ|F)≥α,P(Eη|F)≥β,P为概率;D′是D的置信度,即为(α,β)的(γ,η)-Risk匿名。
对于本领域的技术人员来说,可以根据以上的技术方案和构思,作出各种相应的改变和变形,而所有的这些改变和变形都应该包括在本发明权利要求的保护范围之内。

Claims (1)

1.一种基于敏感信息度量的身份信息隐私保护方法,其特征在于,其包括如下步骤:
S1,确定输入输出;
S2,定义身份重要度并计算出身份重要度;
S3,根据孤立引用和完全引用,优化身份重要度;
S4,计算出敏感信息披露矩阵、最小攻击集、信息披露概率;
S5,确定泛化函数,并对数据集泛化;
S6,建立避免背景知识攻击的隐私保护模型;
S7,描述(γ,η)-Risk匿名算法,输入原始数据集D,输出匿名数据集D′;
S8,引入置信区间,将攻击方的高概率推断攻击控制在指定的置信区间内,避免攻击者使用属性分布函数计算用户身份信息统计特征后进行高概率推断攻击;
所述步骤S1中确定输入输出的过程如下:
S11.首先记身份信息数据库为Did,应用程序数据库为Aid
S12.定义身份信息引用:假设c是某一特定身份信息,A是某一特定应用,FA是当前应用环境下所有应用的集合;
Figure FDA0002711462630000011
如果A引用了c,那么,存在一个从A到c的身份信息引用和一个从c到A的反向引用;
S13.定义身份信息引用矩阵:构造一个矩阵MID,每一列表示用户U的一个身份信息,每一行表示一个应用,元素值表示在应用Ai和身份信息c之间存在一个身份信息引用,即:
Figure FDA0002711462630000012
那么,可得用户U的身份信息引用矩阵MID
Figure FDA0002711462630000013
S14.定义身份引用:假设a是一个用户在某些应用中的身份标识符,A是某一特定应用,FA是当前应用环境下所有应用的集合;
Figure FDA0002711462630000014
如果A引用了a,那么,存在一个从A到a的身份引用,另外还存在一个从a到A的反向引用;
S15.定义身份引用矩阵:构造一个矩阵M′ID,矩阵的行和列均代表某一应用,矩阵元素值表示在应用Ai和Aj之间存在一个身份标识符引用,那么,可得用户U的身份标识符引用矩阵M′ID,其中身份标识符引用矩阵M′ID对角线元素恒为1;对身份信息重要性的度量等同于对包括身份标识符在内的每一个身份信息的度量,即与该身份信息存在引用关系的应用的度量为身份标识符引用矩阵M′ID,可由如下公式计算出:
Figure FDA0002711462630000021
其中,NA表示用户U的身份信息总数,NID表示用户U的应用总数;
所述步骤S2中定义身份重要度并计算出身份重要度的具体过程如下:
S21.定义身份重要度:假设A是一个应用,FA是A引用的所有标识符的集合,BA是所有与A有引用关系的应用的集合,CA是BA中所有应用所包含用户的身份标识符集合,ID为用户身份标识符,FA中的标识符是CA的一个子集,即
Figure FDA0002711462630000022
ID=ID′,NA是集合FA中各个标识符的引用次数的集合,那么应用A的IIV值迭代定义为:
Figure FDA0002711462630000023
S22.IIV值计算过程中引入了常数q来表征不能被其他任何应用引用的应用的IIV值,常数q不为0;修正IIV计算公式为:
Figure FDA0002711462630000024
其中,u表示应用u,v表示应用v,Bu表示所有与u有引用关系的应用的集合,q为常数,表示IIV最小初始值,M是全网的应用数目;
S23.对身份信息引用矩阵MID作归一化处理,得到转移概率矩阵P:
Figure FDA0002711462630000025
S24.求MID的归一化:P=norm(M′ID)
S25.计算P的特征值D和特征向量V:[V,D]=eig(P);
S26.求最大特征值M为:M=find(abs(diag(D)))==max(abs(diag(D)));
S27.计算特征值最大的特征向量:EigenVector=V(:,M);
S28.归一化特征向量为:IIV=EigenVector./norm(EigenVector,1);
所述步骤S3中根据孤立引用和完全引用,优化身份重要度的具体过程如下:完全引用和孤立引用生成的转换矩阵P;且引入用户向量来计算IIV值,用户向量被所有应用引用;
所述步骤S4中计算出敏感信息披露矩阵、最小攻击集、信息披露概率的具体过程如下:
S41.敏感信息披露矩阵:对一个包含N个应用的应用域DAPP,应用APPi向第三方应用披露的用户敏感信息矩阵如下所示:
Figure FDA0002711462630000031
其中
Figure FDA0002711462630000032
表示应用APPi是否向应用APPj披露了用户敏感信息,如果有,该值为1,否则,该值为0;敏感信息披露矩阵是身份信息引用矩阵的一个子集,敏感信息披露矩阵可有效反映用户面临的身份信息披露风险的来源和目的地;
S42.最小攻击集IAttack:用最小攻击集构建完整用户身份信息,其是实现用户身份伪造所需获取的身份披露信息的最小集合,定义为:IAttack={I1,...,IN};最小攻击集IAttack用于确定用户身份信息在应用环境中传播的广泛性;其中,最小攻击集元素越少,用户身份信息传播的越广泛,攻击方获取最小攻击集伪造用户身份的概率越高,身份泄漏的风险越大;反之,攻击方攻击成本越高,用户身份泄漏的风险越低;
S43.信息披露概率:即攻击方成功获取最小攻击集IAttack的概率;对于一个包含N个应用的应用域DAPP,令包含最小攻击集内元素的应用集合为
Figure FDA0002711462630000033
攻击方攻击IAttack内身份信息Ii成功的概率为
Figure FDA0002711462630000034
则信息披露概率p为:
Figure FDA0002711462630000035
所述步骤S5中确定泛化函数,并对数据集泛化的具体过程如下:
S51.待发布原始数据集合:包含所有用户原始身份和属性信息的集合,记作T;
S52.待发布敏感数据集合:待发布原始数据集合中关键用户身份和身份敏感信息数据的集合,记作D;
S53.待发布非敏感数据集合:待发布原始数据集合中非敏感数据集合,记作S;待发布原始数据集合T=D∪S;
S54.泛化函数:对给定的数据v,v的泛化函数Ψ(v)返回v的所有泛化值;采用DGH结构来实现泛化函数Ψ,其中Ψ(China)={China,EastAsia,Asia,*};对于元组t和t′,当t′i∈Ψ(ti)时,t′∈Ψ(t),其中i∈QID,QID是用户的准标识符集合;
S55.数据集泛化:给定敏感数据集D和数据集D′,当且仅当:|D|=|D′|且D′ij∈Ψ(Dij),i∈QID,0<j<N,N为用户属性个数;此时,D′是D的泛化数据集,其中元组d=D[.]j与元组d′=D′[.]j相互关联,记为
Figure FDA0002711462630000041
S55.非覆盖泛化:给定数据集D和D的泛化D′,D′是D的非覆盖泛化,当且仅当:对于D′中的任意两个元组d′1,d′2,d′1≠d′2,D中的任意一个元组d都不能同时满足d′1∈Ψ(d),d′2∈Ψ(d);非覆盖泛化实际上是指,对于数据集D中的任意一个元组只能在数据集D的匿名化集合D′中找到唯一对应的泛化元组;T′和T″都是T的非覆盖泛化,D″也是D的非覆盖泛化;
S56.等价泛化:数据集D′1、D′2分别为数据集D1、D2对应的非覆盖泛化,D′1和D′2是等价泛化,当:
(1)
Figure FDA0002711462630000042
(2)如果d′1∈Ψ(d2)或d′2∈Ψ(d1),则d′1=d′2
S57.k-anonymity匿名:对数据集D的匿名数据集D′,D′为k-anonymity数据集,当且仅当对任意准标识符i∈QID,D′i至少出现k次;
所述步骤S6中建立避免背景知识攻击的隐私保护模型的具体过程如下:
S61.原子:对任意用户ui及其敏感属性值
Figure FDA0002711462630000043
对应的原始数据集中的记录di,原子表示公式:
Figure FDA0002711462630000044
原子将用户和用户的敏感属性关联起来;
S62.基本背景知识:基本背景知识是由原子组成的公式:∧iAi→∨iBj,其中Ai和Bj都是原子,i∈{1,...,M},j∈{1,...,N},M和N表示原子的数目;
S63.背景知识:背景知识K是由若干条基本背景知识组成,攻击方关于用户u的背景知识Ku定义为
Figure FDA0002711462630000045
Figure FDA0002711462630000046
表示分类树TR中包含
Figure FDA0002711462630000047
的父节点,l为用户准标识符集合中元素数量,m为用户敏感属性值集合中元素数量,S为用户敏感属性值集合,
Figure FDA0002711462630000048
表示攻击者关于用户第i个准标识符的背景知识,
Figure FDA0002711462630000049
表示攻击者关于用户第j个敏感属性值的背景知识;
S64.准标识符等价类:数据集D中的准标识符相似等价类GQID是对数据集D按照准标识符进行的一个划分,其中对
Figure FDA0002711462630000051
N为数据集D划分得到的准标识符等价类的数目;原始数据集D的一个准标识符等价划分得到集合T和S,T和5都是D的准标识符等价类;
S65.准标识符属性映射:对数据集D的准标识符等价类划分
Figure FDA0002711462630000052
准标识符属性映射pt定义为pt:G→G,该映射满足:
(1)
Figure FDA0002711462630000053
pt(Gi)=Gj,Gi≠Gj∈G;
(2)
Figure FDA0002711462630000054
pt(Gi)≠pt(Gj);
(3)pt(G)=G;
S66.(γ,η)-Risk匿名:给定待发布原始数据集D、等价泛化数据集D′及其准标识符等价类划分
Figure FDA0002711462630000055
用户集合U,若G中所有准标识符等价类
Figure FDA0002711462630000056
中记录均满足对
Figure FDA0002711462630000057
d′u∈D,有:
Figure FDA0002711462630000058
Figure FDA0002711462630000059
数据集D′是数据集D的(γ,η)-Risk匿名;
其中,
Figure FDA00027114626300000510
Figure FDA00027114626300000511
中所有敏感属性类别的数量,
Figure FDA00027114626300000512
Figure FDA00027114626300000525
中所拥有的不同敏感属性类别的集合,
Figure FDA00027114626300000514
是该集合的基数,
Figure FDA00027114626300000515
Figure FDA00027114626300000526
中敏感属性的属性值为某一类别Cu的所有记录的条数,
Figure FDA00027114626300000517
Figure FDA00027114626300000518
中敏感属性的属性值属于某一类别Cu的不同敏感属性值集合;
所述步骤S7中描述(γ,η)-Risk匿名算法,输入原始数据集D,输出匿名数据集D′的具体过程如下:
S71.假定
Figure FDA00027114626300000519
CountG=0,统计D中的敏感数据类别得到集合CS,根据CS将D中记录划分成M个敏感类别记录集合
Figure FDA00027114626300000520
每个集合一个敏感类别;
S72.对每个准标识符等价类
Figure FDA00027114626300000521
统计敏感值得到敏感值集合VS并根据VS将每个
Figure FDA00027114626300000522
分为N个敏感值记录集合
Figure FDA00027114626300000523
每个集合一个敏感值,从而D分为M*N个敏感值记录集合;
S73.对给定参数γ,计算
Figure FDA00027114626300000524
Figure FDA0002711462630000061
CountG=CountG+1;
集合Rγ=记录数最多的前γ个
Figure FDA0002711462630000062
集合;
For i=1 to γ do
Figure FDA0002711462630000063
Rη=记录数最多的前η个
Figure FDA0002711462630000064
集合;
For j=1 to η do
Figure FDA0002711462630000065
从cj中删除任意一条记录r;
Figure FDA0002711462630000066
S74.对γ个集合
Figure FDA0002711462630000067
汇总归类
Figure FDA0002711462630000068
Figure FDA0002711462630000069
Figure FDA00027114626300000610
Figure FDA00027114626300000611
中剩余的唯一记录;
Figure FDA00027114626300000612
将r放入Rr集合中任一
Figure FDA00027114626300000613
等价类中;
S75.将
Figure FDA00027114626300000614
中准标识符值和敏感属性值记录插入匿名数据集D′:
For j=1 to CountG do
定义集合
Figure FDA00027114626300000615
上的准标识符属性映射ptj
Figure FDA00027114626300000616
Figure FDA00027114626300000617
Figure FDA00027114626300000618
将记录
Figure FDA00027114626300000619
插入D′;
输出D′;
所述步骤S8中引入置信区间,将攻击方的高概率推断攻击控制在指定的置信区间内,避免攻击者使用属性分布函数计算用户身份信息统计特征后进行高概率推断攻击的具体过程如下:
S81.属性分布函数:给定用户集合U,属性集C={c1,...,cn},属性分布函数
Figure FDA0002711462630000071
对给定属性值集合V={v1,...,vn}返回U中的一个用户,即:
Figure FDA0002711462630000072
其中UV∈U并且vi∈Ψ(UV[ci]),i∈[1,n];
S82.置信(γ,η)-Risk匿名:给定敏感数据集D及其等价泛化数据集D′,D的属性分布函数F,置信度α,β∈[0,1],令事件Eγ表示
Figure FDA0002711462630000073
事件Eη表示
Figure FDA0002711462630000077
Figure FDA0002711462630000075
如果
Figure FDA0002711462630000076
都有P(Eγ|F)≥α,P(Eη|F)≥β,P为概率;D′是D的置信度,即为(α,β)的(γ,η)-Risk匿名。
CN201710082886.2A 2017-02-16 2017-02-16 一种基于敏感信息度量的身份信息隐私保护方法 Active CN106940777B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710082886.2A CN106940777B (zh) 2017-02-16 2017-02-16 一种基于敏感信息度量的身份信息隐私保护方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710082886.2A CN106940777B (zh) 2017-02-16 2017-02-16 一种基于敏感信息度量的身份信息隐私保护方法

Publications (2)

Publication Number Publication Date
CN106940777A CN106940777A (zh) 2017-07-11
CN106940777B true CN106940777B (zh) 2020-12-15

Family

ID=59469216

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710082886.2A Active CN106940777B (zh) 2017-02-16 2017-02-16 一种基于敏感信息度量的身份信息隐私保护方法

Country Status (1)

Country Link
CN (1) CN106940777B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107688752B (zh) * 2017-08-21 2020-11-20 哈尔滨工程大学 一种面向多视图聚类挖掘的个性化隐私保护方法
CN107633183B (zh) * 2017-09-29 2020-10-02 东南大学 一种基于查询结果集敏感度的数据泄露检测方法
CN108256000B (zh) * 2017-12-29 2021-06-15 武汉大学 一种基于局部聚类的个性化差分隐私推荐方法
CN109064373B (zh) * 2018-07-17 2022-09-20 大连理工大学 一种基于外包图像数据录入的隐私保护方法
CN109543445B (zh) * 2018-10-29 2022-12-20 复旦大学 一种基于条件概率分布的隐私保护数据发布方法
CN109857780B (zh) * 2019-01-17 2023-04-28 西北大学 一种针对统计查询攻击的线性-正交数据发布方法
CN109800603B (zh) * 2019-02-02 2021-08-31 合肥京东方光电科技有限公司 对用户的信息进行隐私保护处理的方法、监测设备及系统
CN110334537B (zh) * 2019-05-31 2023-01-13 华为技术有限公司 一种信息处理方法、装置以及服务器
CN111079179A (zh) * 2019-12-16 2020-04-28 北京天融信网络安全技术有限公司 数据处理方法、装置、电子设备及可读存储介质
CN111556339B (zh) * 2020-04-15 2022-04-08 长沙学院 一种基于敏感信息度量的视频信息隐私保护系统及方法
CN113938265B (zh) * 2020-07-14 2024-04-12 中国移动通信集团有限公司 一种信息去标识化方法、装置和电子设备
CN112765659B (zh) * 2021-01-20 2021-09-21 曙光星云信息技术(北京)有限公司 针对大数据云服务的数据泄露防护方法及大数据服务器
CN112948881A (zh) * 2021-03-16 2021-06-11 西安电子科技大学 一种开放场景下信息泄露概率的计算方法
CN113051619B (zh) * 2021-04-30 2023-03-03 河南科技大学 一种基于k-匿名的中药处方数据隐私保护方法
CN113257378B (zh) * 2021-06-16 2021-09-28 湖南创星科技股份有限公司 一种基于微服务技术的医疗业务通讯方法及系统
CN113743496A (zh) * 2021-09-01 2021-12-03 北京工业大学 一种基于聚类映射的k-匿名数据处理方法及系统
CN114021191B (zh) * 2021-11-05 2022-07-01 江苏安泰信息科技发展有限公司 一种安全生产信息化敏感数据管理方法及系统
CN117313135B (zh) * 2023-08-02 2024-04-16 东莞理工学院 一种基于属性划分的可高效重构的个人隐私保护方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104766020A (zh) * 2015-04-24 2015-07-08 广西师范大学 商务数据匿名发布中的极小信息损失控制方法
CN105512566A (zh) * 2015-11-27 2016-04-20 电子科技大学 一种基于k-匿名的健康数据隐私保护方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013072930A2 (en) * 2011-09-28 2013-05-23 Tata Consultancy Services Limited System and method for database privacy protection

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104766020A (zh) * 2015-04-24 2015-07-08 广西师范大学 商务数据匿名发布中的极小信息损失控制方法
CN105512566A (zh) * 2015-11-27 2016-04-20 电子科技大学 一种基于k-匿名的健康数据隐私保护方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于K_匿名的隐私保护关键技术研究;杨挺 等;《信息技术》;20161231(第12期);第6-9,13页 *

Also Published As

Publication number Publication date
CN106940777A (zh) 2017-07-11

Similar Documents

Publication Publication Date Title
CN106940777B (zh) 一种基于敏感信息度量的身份信息隐私保护方法
Zhao et al. Inprivate digging: Enabling tree-based distributed data mining with differential privacy
Clifton et al. On syntactic anonymity and differential privacy
Aggarwal et al. A general survey of privacy-preserving data mining models and algorithms
Vaghashia et al. A survey: privacy preservation techniques in data mining
Pramanik et al. Privacy preserving big data analytics: A critical analysis of state‐of‐the‐art
Li et al. A review on privacy-preserving data mining
Caruccio et al. GDPR compliant information confidentiality preservation in big data processing
Aggarwal et al. Privacy-preserving data mining: a survey
CN114564744A (zh) 用于医疗健康档案管理系统的数据保护方法及装置
Kulkarni et al. Optimized key generation-based privacy preserving data mining model for secure data publishing
Anjum et al. An effective privacy preserving mechanism for 1: M microdata with high utility
Parmar et al. A review on data anonymization in privacy preserving data mining
Motiwalla et al. Value added privacy services for healthcare data
Lin Privacy-preserving kernel k-means outsourcing with randomized kernels
Yadav et al. Privacy preserving data mining with abridge time using vertical partition decision tree
Sowmyarani et al. Analytical Study on Privacy Attack Models in Privacy Preserving Data Publishing
Liu et al. Differential privacy performance evaluation under the condition of non-uniform noise distribution
Bhowmik et al. Database security as a gateway to privacy preserving data mining
Nussbaum et al. Privacy analysis of query-set-size control
Gu et al. Multi-party high-dimensional related data publishing via probabilistic principal component analysis and differential privacy
Shimona Survey on privacy preservation technique
Borisov et al. Application of Computer Simulation to the Anonymization of Personal Data: State-of-the-Art and Key Points
Viton et al. Proportional representation to increase data utility in k-anonymous tables
Baumer Identification and Evaluation of Concepts for Privacy-Enhancing Big Data Analytics Using De-Identification Methods on Wrist-Worn Wearable Data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant