CN106940777B - 一种基于敏感信息度量的身份信息隐私保护方法 - Google Patents
一种基于敏感信息度量的身份信息隐私保护方法 Download PDFInfo
- Publication number
- CN106940777B CN106940777B CN201710082886.2A CN201710082886A CN106940777B CN 106940777 B CN106940777 B CN 106940777B CN 201710082886 A CN201710082886 A CN 201710082886A CN 106940777 B CN106940777 B CN 106940777B
- Authority
- CN
- China
- Prior art keywords
- identity
- user
- data set
- sensitive
- attack
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
- G06F21/6254—Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2221/00—Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/21—Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/2135—Metering
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Databases & Information Systems (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于敏感信息度量的身份信息隐私保护方法包括如下步骤:S1,确定输入输出;S2,定义身份重要度并计算出身份重要度;S3,优化身份重要度;S4,计算敏感信息披露矩阵、最小攻击集、信息披露概率;S5,确定泛化函数,对数据集泛化;S6,建立避免背景知识攻击隐私保护模型;S7,描述(γ,η)‑Risk匿名算法,输入原始数据集D,输出匿名数据集D′;S8,引入置信区间,将攻击方的高概率推断攻击控制在指定置信区间内,避免攻击者使用属性分布函数计算用户身份信息统计特征后进行高概率推断攻击。本发明解决了现有隐私保护方法难以有效应对基于背景知识攻击的隐私信息攻击问题,对关键身份和身份敏感信息保护更加全面、有效。
Description
技术领域
本发明涉及网络空间安全中用户身份信息隐私保护方法,,具体涉及一种基于敏感信息度量的身份信息隐私保护方法。
背景技术
网络应用的飞速发展使得用户面临的身份盗用和身份信息泄露威胁以及应用和服务面临的来自外部和内部的身份安全威胁越来越严重,如何解决身份盗用和身份信息泄露是当前的研究热点。要解决身份信息泄露问题,仅仅提供完善的身份鉴别和授权流程和安全的信息传输是不够的,还需要对应用间以及应用与用户之间互相披露的信息进行保护。
隐私保护解决身份信息泄露问题的重要手段,隐私保护是指对已发布数据的访问并不能使攻击方获取关于任何用户的任何信息,即使攻击方拥有从其他渠道获取到的用户背景知识,无论是否发布数据,用户的隐私风险始终保持一致。隐私保护要符合匿名性、非追踪性、非关联性、不可推断性、机密性、似真否认等原则。传统的隐私保护技术包括基于数据失真(distorting)的技术、基于数据加密的技术、基于限制发布的技术。这些技术各有其优缺点,基于数据失真的技术具有较高的效率,但存在一定程度的信息丢失;基于数据加密的技术能够保证最终数据的准确性和安全性,但计算开销大,效率较低;基于限制发布的技术能够保证发布数据的真实性,同样,发布的数据存在一定程度的信息丢失。
隐私保护的目的是确保攻击方无法以较高的概率(置信度)推断出攻击目标的敏感信息。在实际应用中,出于研究和分析目的,通常需要发布包含用户信息的数据集,在数据发布过程中,数据发布方需要对待发布数据集中敏感属性进行匿名化处理,隐藏原始数据,发布匿名化后的数据,不泄露数据中包含的用户敏感属性,从而实现隐私保护的目标;另一方面,由于研究和分析数据的需求,数据发布方必须保证匿名化后的数据仍然保持原始数据的部分统计特征,保证匿名数据集的可用性;从而,在实际实现中,隐私保护算法需要平衡隐私保护和匿名数据可用性两方面的矛盾。
身份及身份属性面临的威胁除了传统的数据隐私泄露威胁——敏感身份属性泄露,还包括通过推理得知重要用户(网络管理员、企业高层管理人员等权限较高的用户)的身份标识,进而对重要用户进行重点数据挖掘,这一方面会使得攻击方获得更高的系统访问权限,另一方面对重要用户本身也是一种伤害(包括人身伤害和精神伤害,如斩首行动等)。
考虑到对所有身份信息进行全面完整的保护在技术实现上的困难性和非必要性,首先需要研究评估用户身份信息重要程度的方法,从而明确保护对象;然后,研究数据发布过程中的隐私保护技术,对要披露的用户信息进行匿名化处理,避免对用户身份的背景知识攻击,将身份盗用和身份信息泄露的风险控制在可接受的概率范围内。由以上分析可知,身份信息管理还面临着技术难题,目前针对身份管理技术的研究很少,大多处于摸索阶段。
发明内容
针对现有技术的不足,本发明旨在提供一种基于敏感信息度量的身份信息隐私保护方法,该方法首先根据身份引用和身份属性信息引用来度量身份信息敏感程度,对重要用户及身份信息重要程度进行分级,在此基础上,可对用户关键身份和身份敏感信息进行隐私保护。本发明能够解决现有隐私保护方法难以有效应对基于背景知识攻击的隐私信息攻击方法的问题,使得对关键身份和身份敏感信息保护更加全面、有效。给定若干用户的身份信息库,本发明可自动识别出重要身份并确保攻击者无法通过高概率推断获得身份信息。
为了实现上述目的,本发明采用如下技术方案:一种基于敏感信息度量的身份信息隐私保护方法,其特征在于,其包括如下步骤:
S1,确定输入输出;
S2,定义身份重要度并计算出身份重要度;
S3,根据孤立引用和完全引用,优化身份重要度;
S4,计算出敏感信息披露矩阵、最小攻击集、信息披露概率;
S5,确定泛化函数,并对数据集泛化;
S6,建立避免背景知识攻击的隐私保护模型;
S7,描述(γ,η)-Risk匿名算法,输入原始数据集D,输出匿名数据集D′;
S8,引入置信区间,将攻击方的高概率推断攻击控制在指定的置信区间内,避免攻击者使用属性分布函数计算用户身份信息统计特征后进行高概率推断攻击;
所述步骤S1中确定输入输出的过程如下:
S11.首先记身份信息数据库为Did,应用程序数据库为Aid;
S13.定义身份信息引用矩阵:构造一个矩阵MID,每一列表示用户U的一个身份信息,每一行表示一个应用,元素值表示在应用Ai和身份信息c之间存在一个身份信息引用,即:
那么,可得用户U的身份信息引用矩阵MID:
S14.定义身份引用:假设a是一个用户在某些应用中的身份标识符,A是某一特定应用,FA是当前应用环境下所有应用的集合;如果A引用了a,那么,存在一个从A到a的身份引用,另外还存在一个从a到A的反向引用;
S15.定义身份引用矩阵:构造一个矩阵M′ID,矩阵的行和列均代表某一应用,矩阵元素值表示在应用Ai和Aj之间存在一个身份标识符引用,那么,可得用户U的身份标识符引用矩阵M′ID,其中身份标识符引用矩阵M′ID对角线元素恒为1;对身份信息重要性的度量等同于对包括身份标识符在内的每一个身份信息的度量,即与该身份信息存在引用关系的应用的度量为身份标识符引用矩阵M′ID,可由如下公式计算出:
其中,NA表示用户U的身份信息总数,NID表示用户U的应用总数;
所述步骤S2中定义身份重要度并计算出身份重要度的具体过程如下:
S21.定义身份重要度:假设A是一个应用,FA是A引用的所有标识符的集合,BA是所有与A有引用关系的应用的集合,CA是BA中所有应用所包含用户的身份标识符集合,ID为用户身份标识符,FA中的标识符是CA的一个子集,即ID=ID′,NA是集合FA中各个标识符的引用次数的集合,那么应用A的IIV值迭代定义为:
S22.IIV值计算过程中引入了常数q来表征不能被其他任何应用引用的应用的IIV值,常数q不为0;修正IIV计算公式为:
其中,u表示应用u,v表示应用v,Bu表示所有与u有引用关系的应用的集合,q为常数,表示IIV最小初始值,M是全网的应用数目;
S23.对身份信息引用矩阵MID作归一化处理,得到转移概率矩阵P:
S24.求MID的归一化:P=norm(M′ID)
S25.计算P的特征值D和特征向量V:[V,D]=eig(P);
S26.求最大特征值M为:M=find(abs(diag(D)))==max(abs(diag(D)));
S27.计算特征值最大的特征向量:EigenVector=V(:,M);
S28.归一化特征向量为:IIV=EigenVector./norm(EigenVector,1);
所述步骤S3中根据孤立引用和完全引用,优化身份重要度的具体过程如下:完全引用和孤立引用生成的转换矩阵P;且引入用户向量来计算IIV值,用户向量被所有应用引用;
所述步骤S4中计算出敏感信息披露矩阵、最小攻击集、信息披露概率的具体过程如下:
S41.敏感信息披露矩阵:对一个包含N个应用的应用域DAPP,应用APPi向第三方应用披露的用户敏感信息矩阵如下所示:
其中表示应用APPi是否向应用APPj披露了用户敏感信息,如果有,该值为1,否则,该值为0;敏感信息披露矩阵是身份信息引用矩阵的一个子集,敏感信息披露矩阵可有效反映用户面临的身份信息披露风险的来源和目的地;
S42.最小攻击集IAttack:用最小攻击集构建完整用户身份信息,其是实现用户身份伪造所需获取的身份披露信息的最小集合,定义为:IAttack={I1,...,IN};最小攻击集IAttack用于确定用户身份信息在应用环境中传播的广泛性;其中,最小攻击集元素越少,用户身份信息传播的越广泛,攻击方获取最小攻击集伪造用户身份的概率越高,身份泄漏的风险越大;反之,攻击方攻击成本越高,用户身份泄漏的风险越低;
S43.信息披露概率:即攻击方成功获取最小攻击集IAttack的概率;对于一个包含N个应用的应用域DAPP,令包含最小攻击集内元素的应用集合为攻击方攻击IAttack内身份信息Ii成功的概率为则信息披露概率p为:
所述步骤S5中确定泛化函数,并对数据集泛化的具体过程如下:
S51.待发布原始数据集合:包含所有用户原始身份和属性信息的集合,记作T;
S52.待发布敏感数据集合:待发布原始数据集合中关键用户身份和身份敏感信息数据的集合,记作D;
S53.待发布非敏感数据集合:待发布原始数据集合中非敏感数据集合,记作S;待发布原始数据集合T=D∪S;
S54.泛化函数:对给定的数据v,v的泛化函数Ψ(v)返回v的所有泛化值;采用DGH结构来实现泛化函数Ψ,其中Ψ(China)={China,EastAsia,Asia,*};对于元组t和t′,当t′i∈Ψ(ti)时,t′∈Ψ(t),其中i∈QID,QID是用户的准标识符集合;
S55.数据集泛化:给定敏感数据集D和数据集D′,当且仅当:|D|=|D′|且D′ij∈Ψ(Dij),i∈QID,0<j<N,N为用户属性个数;此时,D′是D的泛化数据集,其中元组d=D[·]j与元组d'=D'[.]j相互关联,记为
S55.非覆盖泛化:给定数据集D和D的泛化D′,D′是D的非覆盖泛化,当且仅当:对于D′中的任意两个元组d′1,d′2,d′1≠d′2,D中的任意一个元组d都不能同时满足d′1∈Ψ(d),d′2∈Ψ(d);非覆盖泛化实际上是指,对于数据集D中的任意一个元组只能在数据集D的匿名化集合D′中找到唯一对应的泛化元组;T′和T″都是T的非覆盖泛化,D″也是D的非覆盖泛化;
S56.等价泛化:数据集D′1、D′2分别为数据集D1、D2对应的非覆盖泛化,D′1和D′2是等价泛化,当:
(2)如果d′1∈Ψ(d2)或d′2∈Ψ(d1),则d′1=d′2;
S57.k-anonymity匿名:对数据集D的匿名数据集D′,D′为k-anonymity数据集,当且仅当对任意准标识符i∈QID,D′i至少出现k次;
所述步骤S6中建立避免背景知识攻击的隐私保护模型的具体过程如下:
S62.基本背景知识:基本背景知识是由原子组成的公式:∧iAi→∨iBj,其中Ai和Bj都是原子,i∈{1,...,M},j∈{1,...,N},M和N表示原子的数目;
S63.背景知识:背景知识K是由若干条基本背景知识组成,攻击方关于用户u的背景知识Ku定义为 表示分类树TR中包含的父节点,l为用户准标识符集合中元素数量,m为用户敏感属性值集合中元素数量,S为用户敏感属性值集合,表示攻击者关于用户第i个准标识符的背景知识,表示攻击者关于用户第j个敏感属性值的背景知识;
S64.准标识符等价类:数据集D中的准标识符相似等价类GQID是对数据集D按照准标识符进行的一个划分,其中对N为数据集D划分得到的准标识符等价类的数目;原始数据集D的一个准标识符等价划分得到集合T和S,T和S都是D的准标识符等价类;
(3)pt(G)=G;
S66.(γ,η)-Risk匿名:给定待发布原始数据集D、等价泛化数据集D′及其准标识符等价类划分用户集合U,若G中所有准标识符等价类中记录均满足对d′u∈D,有: 数据集D′是数据集D的(γ,η)-Risk匿名;
所述步骤S7中描述(γ,η)-Risk匿名算法,输入原始数据集D,输出匿名数据集D′的具体过程如下:
CountG=CountG+1;
For i=1 to γ do
For j=1 to η do
从cj中删除任意一条记录r;
For j=1 to CountG do
输出D′;
所述步骤S8中引入置信区间,将攻击方的高概率推断攻击控制在指定的置信区间内,避免攻击者使用属性分布函数计算用户身份信息统计特征后进行高概率推断攻击的具体过程如下:
S81.属性分布函数:给定用户集合U,属性集C={c1,...,cn},属性分布函数对给定属性值集合V={v1,...,vn}返回U中的一个用户,即:其中UV∈U并且vi∈Ψ(UV[ci]),i∈[1,n];
S82.置信(γ,η)-Risk匿名:给定敏感数据集D及其等价泛化数据集D′,D的属性分布函数F,置信度α,β∈[0,1],令事件Eγ表示事件Eη表示 如果都有P(Eγ|F)≥α,P(Fη|F)≥β,P为概率;D′是D的置信度,即为(α,β)的(γ,η)-Risk匿名。
本发明的有益效果在于:
1.在(γ,η)-Risk匿名模型中,具有背景知识Ku的攻击方根据用户u的准标识符属性可以准确推测出用户记录属于哪一个准标识符等价类,即中的i值,同时,攻击方知道用户u的敏感值类别Cu,进而,攻击方推测出du的敏感值必定是中属于类别Cu的敏感值,由于中敏感值类别为Cu的敏感值集合包含η个元素,在没有其他背景知识的情况下,攻击方认为du的敏感值可能是中任一元素,因此,具有背景知识Ku的攻击方获得用户u的敏感属性信息的概率不超过1/η。对于不具有背景知识Ku的攻击方,由于攻击方不知道du的敏感值类别,因此攻击方获得用户u的敏感属性信息的概率不超过1/(γ×η)。
2.在(γ,η)-Risk匿名算法中,在完成步骤S71、步骤S72后和步骤S73完成后,每个非空的敏感类别记录集合中最多包含η-1个非空的敏感值记录集合其中每个非空的敏感值记录集合中有且仅有一条记录。完成步骤S74后,集合Rr中至少存在一个满足(γ,η)匿名的准标识符属性等价类划分。步骤S71和步骤S72完成数据集中记录分组工作,时间复杂度均为O(N),N为数据集D包含的记录条数,步骤S73共执行了次时间复杂度为O(γ×η)的循环,其时间复杂度为步骤S74对剩余记录进行处理,时间复杂度为O(N),步骤S75构造并实现准标识符映射,时间复杂度为O(N),因此算法总的时间复杂度为O(N)。
3.置信(γ,η)-Risk匿名在数据集的每个准标识符等价类上定义了隐私,增加了识别用户身份即将原始数据集和特定用户相关联的难度,尤其是在隐私保护需求需要个性化的场合(如某些隐私需求较高的数据可能需要更高的置信等级),从而增强了数据集的匿名性。
附图说明
图1为本发明的流程示意图。
具体实施方式
以下将结合附图对本发明作进一步的描述,需要说明的是,本实施例以本技术方案为前提,给出了详细的实施方式和具体的操作过程,但本发明的保护范围并不限于本实施例。
如图1所示,本发明一种基于敏感信息度量的身份信息隐私保护方法如下:
S1,确定输入输出;
S11.首先记身份信息数据库为Did,应用程序数据库为Aid;
S13.定义身份信息引用矩阵:构造一个矩阵MID,每一列表示用户U的一个身份信息,每一行表示一个应用,元素值表示在应用Ai和身份信息c之间存在一个身份信息引用,即:
那么,可得用户U的身份信息引用矩阵MID:
S14.定义身份引用:假设a是一个用户在某些应用中的身份标识符,A是某一特定应用,FA是当前应用环境下所有应用的集合;如果A引用了a,那么,存在一个从A到a的身份引用,另外还存在一个从a到A的反向引用;
S15.定义身份引用矩阵:构造一个矩阵M′ID,矩阵的行和列均代表某一应用,矩阵元素值表示在应用Ai和Aj之间存在一个身份标识符引用,那么,可得用户U的身份标识符引用矩阵M′ID,其中身份标识符引用矩阵M′ID对角线元素恒为1;对身份信息重要性的度量等同于对包括身份标识符在内的每一个身份信息的度量,即与该身份信息存在引用关系的应用的度量为身份标识符引用矩阵M′ID,可由如下公式计算出:
S2,定义身份重要度并计算出身份重要度;
S21.定义身份重要度:假设A是一个应用,FA是A引用的所有标识符的集合,BA是所有与A有引用关系的应用的集合,CA是BA中所有应用所包含用户的身份标识符集合,ID为用户身份标识符,FA中的标识符是CA的一个子集,即ID=ID′,NA是集合FA中各个标识符的引用次数的集合,那么应用A的IIV值迭代定义为:
S22.IIV值计算过程中引入了常数q来表征不能被其他任何应用引用的应用的IIV值,常数q不为0;修正IIV计算公式为:
其中,u表示应用u,v表示应用v,Bu表示所有与u有引用关系的应用的集合,q为常数,表示IIV最小初始值,M是全网的应用数目;
S23.对身份信息引用矩阵MID作归一化处理,得到转移概率矩阵P:
S24.求MID的归一化:P=norm(M′ID)
S25.计算P的特征值D和特征向量V:[V,D]=eig(P);
S26.求最大特征值M为:M=find(abs(diag(D)))==max(abs(diag(D)));
S27.计算特征值最大的特征向量:EigenVector=V(:,M);
S28.归一化特征向量为:IIV=EigenVector./norm(EigenVector,1)。
S3,根据孤立引用和完全引用,优化身份重要度;
完全引用和孤立引用生成的转换矩阵P;且引入用户向量来计算IIV值,用户向量被所有应用引用。
S4,计算出敏感信息披露矩阵、最小攻击集、信息披露概率;
S41.敏感信息披露矩阵:对一个包含N个应用的应用域DAPP,应用APPi向第三方应用披露的用户敏感信息矩阵如下所示:
其中表示应用APPi是否向应用APPj披露了用户敏感信息,如果有,该值为1,否则,该值为0;敏感信息披露矩阵是身份信息引用矩阵的一个子集,敏感信息披露矩阵可有效反映用户面临的身份信息披露风险的来源和目的地;
S42.最小攻击集IAttack:用最小攻击集构建完整用户身份信息,其是实现用户身份伪造所需获取的身份披露信息的最小集合,定义为:IAttack={I1,...,IN};最小攻击集IAttack用于确定用户身份信息在应用环境中传播的广泛性;其中,最小攻击集元素越少,用户身份信息传播的越广泛,攻击方获取最小攻击集伪造用户身份的概率越高,身份泄漏的风险越大;反之,攻击方攻击成本越高,用户身份泄漏的风险越低;
S43.信息披露概率:即攻击方成功获取最小攻击集IAttack的概率;对于一个包含N个应用的应用域DAPP,令包含最小攻击集内元素的应用集合为攻击方攻击IAttack内身份信息Ii成功的概率为则信息披露概率p为:
S5,确定泛化函数,并对数据集泛化;
S51.待发布原始数据集合:包含所有用户原始身份和属性信息的集合,记作T;
S52.待发布敏感数据集合:待发布原始数据集合中关键用户身份和身份敏感信息数据的集合,记作D;
S53.待发布非敏感数据集合:待发布原始数据集合中非敏感数据集合,记作S;待发布原始数据集合T=D∪S;
S54.泛化函数:对给定的数据v,v的泛化函数Ψ(v)返回v的所有泛化值;采用DGH结构来实现泛化函数Ψ,其中Ψ(China)={China,EastAsia,Asia,*};对于元组t和t′,当t′i∈Ψ(ti)时,t′∈Ψ(t),其中i∈QID,QID是用户的准标识符集合;
S55.数据集泛化:给定敏感数据集D和数据集D′,当且仅当:|D|=|D′|且D′ij∈Ψ(Dij),i∈QID,0<j<N,N为用户属性个数;此时,D′是D的泛化数据集,其中元组d=D[·]j与元组d'=D'[·]j相互关联,记为
S55.非覆盖泛化:给定数据集D和D的泛化D′,D′是D的非覆盖泛化,当且仅当:对于D′中的任意两个元组d′1,d′2,d′1≠d′2,D中的任意一个元组d都不能同时满足d′1∈Ψ(d),d′2∈Ψ(d);非覆盖泛化实际上是指,对于数据集D中的任意一个元组只能在数据集D的匿名化集合D′中找到唯一对应的泛化元组;T′和T″都是T的非覆盖泛化,D″也是D的非覆盖泛化;
S56.等价泛化:数据集D′1、D′2分别为数据集D1、D2对应的非覆盖泛化,D′1和D′2是等价泛化,当:
(2)如果d′1∈Ψ(d2)或d′2∈Ψ(d1),则d′1=d′2;
S57.k-anonymity匿名:对数据集D的匿名数据集D′,D′为k-anonymity数据集,当且仅当对任意准标识符i∈QID,D′i至少出现k次。
S6,建立避免背景知识攻击的隐私保护模型;
S62.基本背景知识:基本背景知识是由原子组成的公式:∧iAi→∨iBj,其中Ai和Bj都是原子,i∈{1,...,M},j∈{1,...,N},M和N表示原子的数目;
S63.背景知识:背景知识K是由若干条基本背景知识组成,攻击方关于用户u的背景知识Ku定义为 表示分类树TR中包含的父节点,l为用户准标识符集合中元素数量,m为用户敏感属性值集合中元素数量,S为用户敏感属性值集合,表示攻击者关于用户第i个准标识符的背景知识,表示攻击者关于用户第j个敏感属性值的背景知识;
S64.准标识符等价类:数据集D中的准标识符相似等价类GQID是对数据集D按照准标识符进行的一个划分,其中对N为数据集D划分得到的准标识符等价类的数目;原始数据集D的一个准标识符等价划分得到集合T和S,T和S都是D的准标识符等价类;
(3)pt(G)=G;
S66.(γ,η)-Risk匿名:给定待发布原始数据集D、等价泛化数据集D′及其准标识符等价类划分用户集合U,若G中所有准标识符等价类中记录均满足对d′u∈D,有: 数据集D′是数据集D的(γ,η)-Risk匿名;
S7,描述(γ,η)-Risk匿名算法,输入原始数据集D,输出匿名数据集D′:
CountG=CountG+1;
For i=1 to γ do
For j=1 to η do
从cj中删除任意一条记录r;
For j=1 to CountG do
输出D′。
S8,引入置信区间,将攻击方的高概率推断攻击控制在指定的置信区间内,避免攻击者使用属性分布函数计算用户身份信息统计特征后进行高概率推断攻击:
S81.属性分布函数:给定用户集合U,属性集C={c1,...,cn},属性分布函数对给定属性值集合V={v1,...,vn}返回U中的一个用户,即:其中UV∈U并且vi∈Ψ(UV[ci]),i∈[1,n];
S82.置信(γ,η)-Risk匿名:给定敏感数据集D及其等价泛化数据集D′,D的属性分布函数F,置信度α,β∈[0,1],令事件Eγ表示事件Eη表示 如果都有P(Eγ|F)≥α,P(Eη|F)≥β,P为概率;D′是D的置信度,即为(α,β)的(γ,η)-Risk匿名。
对于本领域的技术人员来说,可以根据以上的技术方案和构思,作出各种相应的改变和变形,而所有的这些改变和变形都应该包括在本发明权利要求的保护范围之内。
Claims (1)
1.一种基于敏感信息度量的身份信息隐私保护方法,其特征在于,其包括如下步骤:
S1,确定输入输出;
S2,定义身份重要度并计算出身份重要度;
S3,根据孤立引用和完全引用,优化身份重要度;
S4,计算出敏感信息披露矩阵、最小攻击集、信息披露概率;
S5,确定泛化函数,并对数据集泛化;
S6,建立避免背景知识攻击的隐私保护模型;
S7,描述(γ,η)-Risk匿名算法,输入原始数据集D,输出匿名数据集D′;
S8,引入置信区间,将攻击方的高概率推断攻击控制在指定的置信区间内,避免攻击者使用属性分布函数计算用户身份信息统计特征后进行高概率推断攻击;
所述步骤S1中确定输入输出的过程如下:
S11.首先记身份信息数据库为Did,应用程序数据库为Aid;
S13.定义身份信息引用矩阵:构造一个矩阵MID,每一列表示用户U的一个身份信息,每一行表示一个应用,元素值表示在应用Ai和身份信息c之间存在一个身份信息引用,即:
那么,可得用户U的身份信息引用矩阵MID:
S14.定义身份引用:假设a是一个用户在某些应用中的身份标识符,A是某一特定应用,FA是当前应用环境下所有应用的集合;如果A引用了a,那么,存在一个从A到a的身份引用,另外还存在一个从a到A的反向引用;
S15.定义身份引用矩阵:构造一个矩阵M′ID,矩阵的行和列均代表某一应用,矩阵元素值表示在应用Ai和Aj之间存在一个身份标识符引用,那么,可得用户U的身份标识符引用矩阵M′ID,其中身份标识符引用矩阵M′ID对角线元素恒为1;对身份信息重要性的度量等同于对包括身份标识符在内的每一个身份信息的度量,即与该身份信息存在引用关系的应用的度量为身份标识符引用矩阵M′ID,可由如下公式计算出:
其中,NA表示用户U的身份信息总数,NID表示用户U的应用总数;
所述步骤S2中定义身份重要度并计算出身份重要度的具体过程如下:
S21.定义身份重要度:假设A是一个应用,FA是A引用的所有标识符的集合,BA是所有与A有引用关系的应用的集合,CA是BA中所有应用所包含用户的身份标识符集合,ID为用户身份标识符,FA中的标识符是CA的一个子集,即ID=ID′,NA是集合FA中各个标识符的引用次数的集合,那么应用A的IIV值迭代定义为:
S22.IIV值计算过程中引入了常数q来表征不能被其他任何应用引用的应用的IIV值,常数q不为0;修正IIV计算公式为:
其中,u表示应用u,v表示应用v,Bu表示所有与u有引用关系的应用的集合,q为常数,表示IIV最小初始值,M是全网的应用数目;
S23.对身份信息引用矩阵MID作归一化处理,得到转移概率矩阵P:
S24.求MID的归一化:P=norm(M′ID)
S25.计算P的特征值D和特征向量V:[V,D]=eig(P);
S26.求最大特征值M为:M=find(abs(diag(D)))==max(abs(diag(D)));
S27.计算特征值最大的特征向量:EigenVector=V(:,M);
S28.归一化特征向量为:IIV=EigenVector./norm(EigenVector,1);
所述步骤S3中根据孤立引用和完全引用,优化身份重要度的具体过程如下:完全引用和孤立引用生成的转换矩阵P;且引入用户向量来计算IIV值,用户向量被所有应用引用;
所述步骤S4中计算出敏感信息披露矩阵、最小攻击集、信息披露概率的具体过程如下:
S41.敏感信息披露矩阵:对一个包含N个应用的应用域DAPP,应用APPi向第三方应用披露的用户敏感信息矩阵如下所示:
其中表示应用APPi是否向应用APPj披露了用户敏感信息,如果有,该值为1,否则,该值为0;敏感信息披露矩阵是身份信息引用矩阵的一个子集,敏感信息披露矩阵可有效反映用户面临的身份信息披露风险的来源和目的地;
S42.最小攻击集IAttack:用最小攻击集构建完整用户身份信息,其是实现用户身份伪造所需获取的身份披露信息的最小集合,定义为:IAttack={I1,...,IN};最小攻击集IAttack用于确定用户身份信息在应用环境中传播的广泛性;其中,最小攻击集元素越少,用户身份信息传播的越广泛,攻击方获取最小攻击集伪造用户身份的概率越高,身份泄漏的风险越大;反之,攻击方攻击成本越高,用户身份泄漏的风险越低;
S43.信息披露概率:即攻击方成功获取最小攻击集IAttack的概率;对于一个包含N个应用的应用域DAPP,令包含最小攻击集内元素的应用集合为攻击方攻击IAttack内身份信息Ii成功的概率为则信息披露概率p为:
所述步骤S5中确定泛化函数,并对数据集泛化的具体过程如下:
S51.待发布原始数据集合:包含所有用户原始身份和属性信息的集合,记作T;
S52.待发布敏感数据集合:待发布原始数据集合中关键用户身份和身份敏感信息数据的集合,记作D;
S53.待发布非敏感数据集合:待发布原始数据集合中非敏感数据集合,记作S;待发布原始数据集合T=D∪S;
S54.泛化函数:对给定的数据v,v的泛化函数Ψ(v)返回v的所有泛化值;采用DGH结构来实现泛化函数Ψ,其中Ψ(China)={China,EastAsia,Asia,*};对于元组t和t′,当t′i∈Ψ(ti)时,t′∈Ψ(t),其中i∈QID,QID是用户的准标识符集合;
S55.数据集泛化:给定敏感数据集D和数据集D′,当且仅当:|D|=|D′|且D′ij∈Ψ(Dij),i∈QID,0<j<N,N为用户属性个数;此时,D′是D的泛化数据集,其中元组d=D[.]j与元组d′=D′[.]j相互关联,记为
S55.非覆盖泛化:给定数据集D和D的泛化D′,D′是D的非覆盖泛化,当且仅当:对于D′中的任意两个元组d′1,d′2,d′1≠d′2,D中的任意一个元组d都不能同时满足d′1∈Ψ(d),d′2∈Ψ(d);非覆盖泛化实际上是指,对于数据集D中的任意一个元组只能在数据集D的匿名化集合D′中找到唯一对应的泛化元组;T′和T″都是T的非覆盖泛化,D″也是D的非覆盖泛化;
S56.等价泛化:数据集D′1、D′2分别为数据集D1、D2对应的非覆盖泛化,D′1和D′2是等价泛化,当:
(2)如果d′1∈Ψ(d2)或d′2∈Ψ(d1),则d′1=d′2;
S57.k-anonymity匿名:对数据集D的匿名数据集D′,D′为k-anonymity数据集,当且仅当对任意准标识符i∈QID,D′i至少出现k次;
所述步骤S6中建立避免背景知识攻击的隐私保护模型的具体过程如下:
S62.基本背景知识:基本背景知识是由原子组成的公式:∧iAi→∨iBj,其中Ai和Bj都是原子,i∈{1,...,M},j∈{1,...,N},M和N表示原子的数目;
S63.背景知识:背景知识K是由若干条基本背景知识组成,攻击方关于用户u的背景知识Ku定义为 表示分类树TR中包含的父节点,l为用户准标识符集合中元素数量,m为用户敏感属性值集合中元素数量,S为用户敏感属性值集合,表示攻击者关于用户第i个准标识符的背景知识,表示攻击者关于用户第j个敏感属性值的背景知识;
S64.准标识符等价类:数据集D中的准标识符相似等价类GQID是对数据集D按照准标识符进行的一个划分,其中对N为数据集D划分得到的准标识符等价类的数目;原始数据集D的一个准标识符等价划分得到集合T和S,T和5都是D的准标识符等价类;
(3)pt(G)=G;
S66.(γ,η)-Risk匿名:给定待发布原始数据集D、等价泛化数据集D′及其准标识符等价类划分用户集合U,若G中所有准标识符等价类中记录均满足对d′u∈D,有: 数据集D′是数据集D的(γ,η)-Risk匿名;
所述步骤S7中描述(γ,η)-Risk匿名算法,输入原始数据集D,输出匿名数据集D′的具体过程如下:
CountG=CountG+1;
For i=1 to γ do
For j=1 to η do
从cj中删除任意一条记录r;
For j=1 to CountG do
输出D′;
所述步骤S8中引入置信区间,将攻击方的高概率推断攻击控制在指定的置信区间内,避免攻击者使用属性分布函数计算用户身份信息统计特征后进行高概率推断攻击的具体过程如下:
S81.属性分布函数:给定用户集合U,属性集C={c1,...,cn},属性分布函数对给定属性值集合V={v1,...,vn}返回U中的一个用户,即:其中UV∈U并且vi∈Ψ(UV[ci]),i∈[1,n];
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710082886.2A CN106940777B (zh) | 2017-02-16 | 2017-02-16 | 一种基于敏感信息度量的身份信息隐私保护方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710082886.2A CN106940777B (zh) | 2017-02-16 | 2017-02-16 | 一种基于敏感信息度量的身份信息隐私保护方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106940777A CN106940777A (zh) | 2017-07-11 |
CN106940777B true CN106940777B (zh) | 2020-12-15 |
Family
ID=59469216
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710082886.2A Active CN106940777B (zh) | 2017-02-16 | 2017-02-16 | 一种基于敏感信息度量的身份信息隐私保护方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106940777B (zh) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107688752B (zh) * | 2017-08-21 | 2020-11-20 | 哈尔滨工程大学 | 一种面向多视图聚类挖掘的个性化隐私保护方法 |
CN107633183B (zh) * | 2017-09-29 | 2020-10-02 | 东南大学 | 一种基于查询结果集敏感度的数据泄露检测方法 |
CN108256000B (zh) * | 2017-12-29 | 2021-06-15 | 武汉大学 | 一种基于局部聚类的个性化差分隐私推荐方法 |
CN109064373B (zh) * | 2018-07-17 | 2022-09-20 | 大连理工大学 | 一种基于外包图像数据录入的隐私保护方法 |
CN109543445B (zh) * | 2018-10-29 | 2022-12-20 | 复旦大学 | 一种基于条件概率分布的隐私保护数据发布方法 |
CN109857780B (zh) * | 2019-01-17 | 2023-04-28 | 西北大学 | 一种针对统计查询攻击的线性-正交数据发布方法 |
CN109800603B (zh) * | 2019-02-02 | 2021-08-31 | 合肥京东方光电科技有限公司 | 对用户的信息进行隐私保护处理的方法、监测设备及系统 |
CN110334537B (zh) * | 2019-05-31 | 2023-01-13 | 华为技术有限公司 | 一种信息处理方法、装置以及服务器 |
CN111079179A (zh) * | 2019-12-16 | 2020-04-28 | 北京天融信网络安全技术有限公司 | 数据处理方法、装置、电子设备及可读存储介质 |
CN111556339B (zh) * | 2020-04-15 | 2022-04-08 | 长沙学院 | 一种基于敏感信息度量的视频信息隐私保护系统及方法 |
CN113938265B (zh) * | 2020-07-14 | 2024-04-12 | 中国移动通信集团有限公司 | 一种信息去标识化方法、装置和电子设备 |
CN112765659B (zh) * | 2021-01-20 | 2021-09-21 | 曙光星云信息技术(北京)有限公司 | 针对大数据云服务的数据泄露防护方法及大数据服务器 |
CN112948881A (zh) * | 2021-03-16 | 2021-06-11 | 西安电子科技大学 | 一种开放场景下信息泄露概率的计算方法 |
CN113051619B (zh) * | 2021-04-30 | 2023-03-03 | 河南科技大学 | 一种基于k-匿名的中药处方数据隐私保护方法 |
CN113257378B (zh) * | 2021-06-16 | 2021-09-28 | 湖南创星科技股份有限公司 | 一种基于微服务技术的医疗业务通讯方法及系统 |
CN113743496A (zh) * | 2021-09-01 | 2021-12-03 | 北京工业大学 | 一种基于聚类映射的k-匿名数据处理方法及系统 |
CN114021191B (zh) * | 2021-11-05 | 2022-07-01 | 江苏安泰信息科技发展有限公司 | 一种安全生产信息化敏感数据管理方法及系统 |
CN117313135B (zh) * | 2023-08-02 | 2024-04-16 | 东莞理工学院 | 一种基于属性划分的可高效重构的个人隐私保护方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104766020A (zh) * | 2015-04-24 | 2015-07-08 | 广西师范大学 | 商务数据匿名发布中的极小信息损失控制方法 |
CN105512566A (zh) * | 2015-11-27 | 2016-04-20 | 电子科技大学 | 一种基于k-匿名的健康数据隐私保护方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013072930A2 (en) * | 2011-09-28 | 2013-05-23 | Tata Consultancy Services Limited | System and method for database privacy protection |
-
2017
- 2017-02-16 CN CN201710082886.2A patent/CN106940777B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104766020A (zh) * | 2015-04-24 | 2015-07-08 | 广西师范大学 | 商务数据匿名发布中的极小信息损失控制方法 |
CN105512566A (zh) * | 2015-11-27 | 2016-04-20 | 电子科技大学 | 一种基于k-匿名的健康数据隐私保护方法 |
Non-Patent Citations (1)
Title |
---|
基于K_匿名的隐私保护关键技术研究;杨挺 等;《信息技术》;20161231(第12期);第6-9,13页 * |
Also Published As
Publication number | Publication date |
---|---|
CN106940777A (zh) | 2017-07-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106940777B (zh) | 一种基于敏感信息度量的身份信息隐私保护方法 | |
Zhao et al. | Inprivate digging: Enabling tree-based distributed data mining with differential privacy | |
Clifton et al. | On syntactic anonymity and differential privacy | |
Aggarwal et al. | A general survey of privacy-preserving data mining models and algorithms | |
Vaghashia et al. | A survey: privacy preservation techniques in data mining | |
Pramanik et al. | Privacy preserving big data analytics: A critical analysis of state‐of‐the‐art | |
Li et al. | A review on privacy-preserving data mining | |
Caruccio et al. | GDPR compliant information confidentiality preservation in big data processing | |
Aggarwal et al. | Privacy-preserving data mining: a survey | |
CN114564744A (zh) | 用于医疗健康档案管理系统的数据保护方法及装置 | |
Kulkarni et al. | Optimized key generation-based privacy preserving data mining model for secure data publishing | |
Anjum et al. | An effective privacy preserving mechanism for 1: M microdata with high utility | |
Parmar et al. | A review on data anonymization in privacy preserving data mining | |
Motiwalla et al. | Value added privacy services for healthcare data | |
Lin | Privacy-preserving kernel k-means outsourcing with randomized kernels | |
Yadav et al. | Privacy preserving data mining with abridge time using vertical partition decision tree | |
Sowmyarani et al. | Analytical Study on Privacy Attack Models in Privacy Preserving Data Publishing | |
Liu et al. | Differential privacy performance evaluation under the condition of non-uniform noise distribution | |
Bhowmik et al. | Database security as a gateway to privacy preserving data mining | |
Nussbaum et al. | Privacy analysis of query-set-size control | |
Gu et al. | Multi-party high-dimensional related data publishing via probabilistic principal component analysis and differential privacy | |
Shimona | Survey on privacy preservation technique | |
Borisov et al. | Application of Computer Simulation to the Anonymization of Personal Data: State-of-the-Art and Key Points | |
Viton et al. | Proportional representation to increase data utility in k-anonymous tables | |
Baumer | Identification and Evaluation of Concepts for Privacy-Enhancing Big Data Analytics Using De-Identification Methods on Wrist-Worn Wearable Data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |