CN105224881B - 一种众包数据库下的双向k‑匿名方法 - Google Patents

一种众包数据库下的双向k‑匿名方法 Download PDF

Info

Publication number
CN105224881B
CN105224881B CN201510611209.6A CN201510611209A CN105224881B CN 105224881 B CN105224881 B CN 105224881B CN 201510611209 A CN201510611209 A CN 201510611209A CN 105224881 B CN105224881 B CN 105224881B
Authority
CN
China
Prior art keywords
data set
cell
user
company position
anonymization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510611209.6A
Other languages
English (en)
Other versions
CN105224881A (zh
Inventor
丁晓锋
金海�
张凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201510611209.6A priority Critical patent/CN105224881B/zh
Publication of CN105224881A publication Critical patent/CN105224881A/zh
Application granted granted Critical
Publication of CN105224881B publication Critical patent/CN105224881B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2107File encryption

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种众包数据库下的双向k‑匿名方法,其中,该方法包括:首先,针对公司职位数据集进行k‑匿名处理;接着,针对应聘用户的原始数据集进行分阶段的匿名化处理;继而,将获得的匿名化的公司职位数据集和匿名化的用户数据集一同发布到众包平台,在注册用户做职业推荐任务后,得到用户‑公司职位关系表A及用户‑公司职位关系表B;对所述用户‑公司职位关系表A和所述用户‑公司职位关系表B进行交集运算,得到最终确定的用户‑公司职位关系表。本发明不仅解决了众包数据库下不能同时保护应聘用户与公司双方隐私的问题,同时通过对应聘用户的原始数据的匿名化处理,在保证双方隐私不被泄露的同时,显著提高了匿名数据的可用性。

Description

一种众包数据库下的双向K-匿名方法
技术领域
本发明属于隐私保护领域,更具体地,涉及一种众包数据库下的双向k-匿名方法。
背景技术
众包(crowdsourcing)是指一个公司或机构把过去由员工执行的工作任务,以自由自愿的形式外包给非特定的(而且通常是大型的)大众网络的做法,如亚马逊的Mechanical Turk。众包的工作流程具体如下:1、公司将任务及相关数据发布到众包平台;2、众包平台上的注册用户(human worker)接受任务后获得相关数据;3、human worker完成任务,将结果返回给公司,并获得相应报酬。
近几年,随着众包技术的流行,其被越来越多的用于处理那些对计算机较难而对人较易的数据分析任务。于是,一种在众包环境下由人参与的新型数据库模型被提出,即众包数据库。例如,人才招聘网站(如51Job、ChinaHR),可以将其接收到的求职者简历与公司职位信息发布到众包平台,并提供相应的报酬让human worker完成职业推荐任务。
然而,由于众包数据库中human worker可以直接获得任务相关数据,这其中可能包含应聘用户隐私信息(如用户个人简历中的联系方式,健康状况等)与公司隐私信息(如薪金水平、加班情况及补贴等),因此,上述过程可能造成应聘用户隐私信息与公司隐私信息的泄露,所以必须对众包数据库做隐私保护处理。
隐私保护处理的一个有效手段是数据匿名化,其基本思想是隐藏原始数据中的部分信息。k-匿名是数据匿名化中最重要的模型之一,其保证数据匿名化后拥有相同准标识符属性的元组个数至少为k,从而使攻击者无法推理出特定个体的隐私信息。但针对众包数据库下涉及供需求双方的应用场景,现有的k-匿名技术存在以下缺陷:(1)数据匿名化处理后会造成原始数据中部分有效信息的丢失,从而导致human worker完成众包任务的正确率降低,也就是说数据匿名化处理后的可用性低;(2)由于众包数据库中可能包含应聘用户及公司双方的隐私信息,现有的k-匿名技术仅能保护一方的隐私信息,而不能同时保护应聘用户与公司双方的隐私信息。相应地,本领域亟需寻找一种适用于众包数据库环境下双方隐私保护的方法。
发明内容
针对现有技术的以上缺陷或不足,本发明提供了一种众包数据库下的双向k-匿名方法,其中通过双向k-匿名机制分别对公司职位数据集和应聘用户的原始数据集执行匿名化处理,同时,尤其是针对应聘用户的原始数据集,本发明进行了专门的设计,提出了一种基于空间分割的两阶段k-匿名算法,相应能够有效解决匿名化处理后,导致原始数据集中部分有效信息的丢失,及众包数据库环境下k-匿名技术无法同时保护双方隐私的问题。通过执行本发明中的方案,在同时保护双方隐私的基础上,还显著提高了匿名数据的可用性,因而尤其适用于众包数据库环境下包含供需求双方之类的应用场合。
为实现上述目的,本发明提出了一种众包数据库下的双向k-匿名方法,其特征在于,所述方法具体包括以下步骤:
S1:首先,针对公司职位数据集,对其进行k-匿名处理:具体包括将所述公司职位数据集按属性拆分为两个数据集,其一是将所述公司职位数据集中除准标识符属性外的其他属性匿名化为空,处理后得到的所述公司职位数据集中仅包含准标识符属性;另一是将所述公司职位数据集中准标识符属性匿名化为空,处理后得到的所述公司职位数据集中包含除准标识符属性之外的其他所有属性,由此获得匿名化的仅包含准标识符属性的第一公司职位数据集和匿名化的不包含准标识符属性的第二公司职位数据集;
S2:接着,继续针对应聘用户的原始数据集进行分阶段的匿名化处理,具体包括:通过获取的所述原始数据集的样本真实值对该原始数据集构成的空间进行虚拟分割,得到最优分割点;继而,根据上述获得的该最优分割点和获取的所述原始数据集的样本反馈值递归地分割所述原始数据集构成的空间,从而得到子空间集合,最后根据子空间集合中各子空间的边界对该原始数据集做匿名化处理,由此获得匿名化的用户数据集;
S3:将得到的所述第一公司职位数据集和所述用户数据集一同发布到众包平台,在注册用户做职业推荐任务后,得到用户-公司职位关系表A;
S4:将得到的所述第二公司职位数据集和所述用户数据集一同发布到众包平台,在注册用户做职业推荐任务后,得到用户-公司职位关系表B;
S5:最后,将上述步骤得到的所述用户-公司职位关系表A和所述用户-公司职位关系表B,进行交集运算,得到最终确定的用户-公司职位关系表。
作为进一步优选的,对于步骤S2而言,优选采用基于空间分割的两阶段k-匿名算法,该步骤具体包括以下子步骤:首先根据获取的原始数据集的样本真实值对用户数据集构成的空间做第一阶段的虚拟分割,具体包括:
S211:首先,针对应聘用户的原始数据集随机抽样,提取样本数据中应聘用户的曾经职业或当前职业作为所述应聘用户的真实值rk,其中rk∈R,R为职业种类,即真实值值域R=(r0,r1,…,rk,…,rn),k=0,1,…,n;
S212:接着,将匿名化处理后具有相同准标识符属性的应聘用户记为所述多维空间的子空间cell,其中,每个cell均包含以下信息:位于该cell内的应聘用户个数、样本个数和样本真实值;继而,得到该cell中样本真实值分布T=(t0,t1,…,tk,…,tn)的方差为:
其中tk表示该cell中真实值为rk的样本个数,其中k为样本真实值分布中的取值个数,k=0,1,…,n;;所述样本的准标识符属性构成该空间的候选分割点集合P={Pi|0≤i≤d},其中i表示所述原始数据集构成的多维空间的维度,即所述原始数据集中各准标识符属性;设第i维上候选分割点集合为Pi=(pi0,pi1,...,pij,...,pim),其中j=0,1,…,m为候选分割点集合中的取值个数,那么所述Pi中pij的估值函数为:
val(pij)=∑T∈Γvar(T)
其中Γ表示被pij分割后产生的所有cell对应的T的集合;
S213:根据上述估值函数分别计算第0~n维上每个候选分割点pijpij的估值,得到拥有最大估值的最优分割点pik,其中k∈[0,1,...,m];
S214:将所述pik从所述Pi中删除,并添加pik到第i维最优分割点集合divider[i]中,记divider[0…d]为多维空间中最优分割点的数组,i表示维度;
S215:判断候选分割点集合P中是否存在合法分割点,即是否满足k-匿名,若存在,则执行步骤S213;若不存在,则算法结束,divider[0…d]为产生结果。
继而,针对上述步骤S211中得到的所述样本数据,将其发送到众包平台,根据获取的反馈值进行正式的空间分割,即执行基于空间分割的两阶段的k-匿名算法中第二阶段正式的分割空间,具体包括如下步骤:
S221:将步骤S211中获得的所述样本数据发布到众包平台,注册用户根据样本精确信息为应聘用户推荐职位,以获得样本反馈值F=(f0,f1,…,fk,…,fn),其值域仍为R=(r0,r1,…,rk,…,rn),k=0,1,…,n;继而,根据获得的所述样本反馈值计算所述cell评分函数为:
其中,fk表示所述cell中该样本反馈值为rk的样本个数;由于每次分割均将原空间分割为子空间cell1和cell2,从步骤S214中的所述divider[0…d]取出分割点div,其估值函数为:
val(div)=score(cell1)+score(cell2);
S222:针对当前cell,判断该divider[0…d]中是否存在满足k-匿名的分割点,若存在,则执行S223;若不存在,则执行S226;
S223:根据所述分割点div的估值函数,在divider[0…d]中计算拥有最大估值的分割点divMax,若val(divMax)>score(cell),则通过所述最大估值的divMax将当前空间分割为cell1和cell2,然后针对cell1和cell2分别对应依次执行S224及S225,否则,执行S226;
S224:针对cell1执行S222;
S225:针对cell2执行S222;
S226:将该cell插入到子空间集合C中,并递归上一层;
S227:根据递归分割得到子空间集合C中各cell的边界,对所述原始数据集的准标识符属性进行匿名化处理,从而得到匿名化的用户数据集。
总体而言,按照本发明点的以上技术方案与现有技术相比,主要具备以下的技术优点:
1、本申请中通过结合众包数据库下包含供需求双方关系的运用需求,相应对用户数据集及公司职位数据集同时执行k-匿名处理,由此,注册用户human worker通过众包数据库获得的数据均是匿名处理后的数据,能够有效起到保护用户及公司双方隐私的作用;
2、此外,本发明中专门针对用户数据集提出了基于空间分割的两阶段k-匿名算法,这样能够在确保用户隐私和公司隐私得到有效保护的同时,最大可能的保留原始数据中的可用信息,显著提高了匿名化后数据的可用性,使得human worker完成众包任务时的正确率增加;
3、按照本发明提出的众包数据库下的双向k-匿名方法,在双方隐私均达到有效保护及匿名化数据可用性得到提高的同时,并未存在过多的计算复杂度,便于操控,,因而具有一定的可实施性及实用推广价值。
附图说明
图1是本发明众包数据库下的双向k-匿名方法的执行流程图;
图2是本发明中提出的基于空间分割的两阶段k-匿名算法示意图;
图3是本发明中进一步优选的k-匿名算法第一阶段流程图;
图4是本发明中进一步优选的k-匿名算法第二阶段流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明提供了一种众包数据库下的双向k-匿名方法:
(1)对公司职位数据集进行两种极端的k-匿名处理:第一种是将所述公司职位数据集中准标识符属性外的其他属性匿名化为空,处理后得到仅包含准标识符属性的第一公司职位数据集;第二种是将所述公司职位数据集中准标识符属性匿名化为空,处理后得到包含除准标识符属性之外的其他所有属性的第二公司职位数据集;
(2)对应聘用户的原始数据集做k-匿名处理,采用基于空间分割的两阶段的k-匿名算法,如图2所示,具体包括:
首先针对应聘用户的原始数据集随机抽取样本数据,根据获得的所述原始数据集的样本真实值对该原始数据集构成的空间做第一阶段的虚拟分割,如图3所示,具体包括以下步骤:
S211:首先,针对应聘用户的原始数据集随机抽样,提取样本数据中应聘用户的曾经职业或当前职业作为所述应聘用户的真实值rk,其中rk∈R,R为职业种类,即真实值值域R=(r0,r1,…,rk,…,rn),其中k为值域取值个数,k=0,1,…,n;
S212:接着,将匿名化处理后具有相同准标识符属性的应聘用户记为所述多维空间的子空间cell,其中,每个cell均包含以下信息:位于该cell内的应聘用户个数、样本个数和样本真实值;继而,得到该cell中样本真实值分布T=(t0,t1,…,tk,…,tn)的方差为:
其中tk表示该cell中真实值为rk的样本个数,其中k为样本真实值分布中的取值个数,k=0,1,…,n;;所述样本的准标识符属性构成该空间的候选分割点集合P={Pi|0≤i≤d},其中i表示所述原始数据集构成的多维空间的维度,即所述原始数据集中各准标识符属性;设第i维上候选分割点集合为Pi=(pi0,pi1,...,pij,...,pim),其中j=0,1,…,m为候选分割点集合中的取值个数,那么所述Pi中pij的估值函数为:
val(pij)=∑T∈Γvar(T)
其中Γ表示被pij分割后产生的所有cell对应的T的集合;
S213:根据上述估值函数分别计算第0~n维上每个候选分割点pijpij的估值,得到拥有最大估值的最优分割点pik,其中k∈[0,1,...,m];
S214:将所述pik从所述Pi中删除,并添加pik到第i维最优分割点集合divider[i]中,记divider[0…d]为多维空间中最优分割点的数组,i表示维度;S215:判断候选分割点集合P中是否存在合法分割点,即是否满足k-匿名,若存在,则执行步骤S213;若不存在,则算法结束,divider[0…d]为产生结果。
继而,将获取的应聘用户的原始数据集的样本数据发布到众包平台,根据获取的样本反馈值进行正式的空间分割,即基于空间分割的两阶段的k-匿名算法中的第二阶段正式的分割空间,如图4所示,具体包括以下步骤:
S221:将步骤S211中获得的所述样本数据发布到众包平台,注册用户根据样本精确信息为应聘用户推荐职位,以获得样本反馈值F=(fi,f1,…,fk,…,fn),其值域仍为R=(r0,r1,…,rk,…,rn),k=0,1,…,n;继而,根据获得的所述样本反馈值计算所述cell评分函数为:
其中,fk表示所述cell中该样本反馈值为rk的样本个数;由于每次分割均将原空间分割为子空间cell1和cell2,从步骤S214中的所述divider[0…d]取出分割点div,其估值函数为:
val(div)=score(cell1)+score(cell2);
S222:针对当前cell,判断该divider[0…d]中是否存在满足k-匿名的分割点,若存在,则执行S223;若不存在,则执行S226;
S223:根据所述分割点div的估值函数,在divider[0…d]中计算拥有最大估值的分割点divMax,若val(divMax)>score(cell),则通过所述最大估值的divMax将当前空间分割为cell1和cell2,然后针对cell1和cell2分别对应依次执行S224及S225,否则,执行S226;
S224:针对cell1执行S222;
S225:针对cell2执行S222;
S226:将该cell插入到子空间集合C中,并递归上一层;
S227:根据递归分割得到子空间集合C中各cell的边界,对所述原始数据集的准标识符属性进行匿名化处理,从而得到匿名化的用户数据集。
(3)将上述步骤获得的匿名化的所述用户数据集和所述第一公司职位数据集发布到众包平台,在注册用户human worker做职业推荐任务后,得到用户-公司职位关系表A。
(4)将上述步骤获得的匿名化的所述用户数据集和所述第二公司职位数据集发布到众包平台,在注册用户human worker做职业推荐任务后,得到用户-公司职位关系表B。
(5)将所述用户-公司职位关系表A和所述用户-公司职位B进行交集运算,得到最终确定的用户-公司职位关系表。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种众包数据库下的双向k-匿名方法,其特征在于,所述方法具体包括以下步骤:
S1:首先,针对公司职位数据集,对其进行k-匿名处理:具体包括将所述公司职位数据集按属性拆分为两个数据集,其一是将所述公司职位数据集中除准标识符属性外的其他属性匿名化为空,处理后得到仅包含准标识符属性的所述公司职位数据集;另一是将所述公司职位数据集中准标识符属性匿名化为空,处理后得到包含除准标识符属性之外的其他所有属性的所述公司职位数据集,由此获得匿名化的仅包含准标识符属性的第一公司职位数据集和匿名化的不包含准标识符属性的第二公司职位数据集;
S2:接着,继续针对应聘用户的原始数据集进行分阶段的匿名化处理,具体包括:通过获取的所述原始数据集的样本真实值对该原始数据集构成的空间进行虚拟分割,得到最优分割点;继而,根据上述获得的该最优分割点和获取的所述原始数据集的样本反馈值递归地分割所述原始数据集构成的空间,从而得到子空间集合,最后根据子空间集合中各子空间的边界对该原始数据集做匿名化处理,由此获得匿名化的用户数据集;
S3:将得到的所述第一公司职位数据集和所述用户数据集一同发布到众包平台,在注册用户做职业推荐任务后,得到用户-公司职位关系表A;
S4:将得到的所述第二公司职位数据集和所述用户数据集一同发布到众包平台,在注册用户做职业推荐任务后,得到用户-公司职位关系表B;
S5:最后,将步骤S3得到的所述用户-公司职位关系表A和步骤S4得到的所述用户-公司职位关系表B,进行交集运算,得到最终确定的用户-公司职位关系表。
2.如权利要求1所述的众包数据库下的双向k-匿名方法,其特征在于,针对步骤S2中将所述原始数据集构成的空间进行虚拟分割,具体包括:
S211:首先,针对应聘用户的原始数据集随机抽样,提取样本数据中应聘用户的曾经职业或当前职业作为所述应聘用户的真实值rk,其中rk∈R,R为职业种类,即真实值值域R=(r0,r1,…,rk,…,rn),k=0,1,…,n;
S212:接着,将匿名化处理后具有相同准标识符属性的应聘用户记为所述原始数据集构成的多维空间的子空间cell,其中,每个cell均包含以下信息:位于该cell内的应聘用户个数、样本个数和样本真实值;继而,得到该cell中样本真实值分布T=(t0,t1,…,tk,…,tn)的方差为:
<mrow> <mi>var</mi> <mrow> <mo>(</mo> <mi>T</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>n</mi> </msubsup> <msubsup> <mi>t</mi> <mi>k</mi> <mn>2</mn> </msubsup> </mrow> <mrow> <mi>n</mi> <mo>+</mo> <mn>1</mn> </mrow> </mfrac> <mo>-</mo> <msup> <mrow> <mo>(</mo> <mfrac> <mrow> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>n</mi> </msubsup> <msub> <mi>t</mi> <mi>k</mi> </msub> </mrow> <mrow> <mi>n</mi> <mo>+</mo> <mn>1</mn> </mrow> </mfrac> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow>
其中tk表示该cell中真实值为rk的样本个数,k=0,1,…,n;所述样本的准标识符属性构成该空间的候选分割点集合P={Pi|0≤i≤d},其中i表示所述原始数据集构成的多维空间的维度,即所述原始数据集中各准标识符属性;设第i维上候选分割点集合为Pi=(pi0,pi1,...,pij,...,pim),其中j=0,1,…,m为候选分割点集合中的取值个数,那么所述Pi中pij的估值函数为:
val(pij)=∑T∈Γvar(T)
其中Γ表示被pij分割后产生的所有cell对应的T的集合;
S213:根据上述估值函数分别计算第0~n维上每个候选分割点pij的估值,得到拥有最大估值的最优分割点pik,其中k∈[0,1,...,m];
S214:将所述pik从所述Pi中删除,并添加pik到第i维最优分割点集合divider[i]中,记divider[0…d]为多维空间中最优分割点的数组,i表示维度;
S215:判断候选分割点集合P中是否存在合法分割点,即是否满足k-匿名,若存在,则执行步骤S213;若不存在,则算法结束,divider[0…d]为产生结果。
3.如权利要求2所述的众包数据库下的双向k-匿名方法,其特征在于,所述步骤S2具体包括:
S221:将步骤S211中获得的所述样本数据发布到众包平台,注册用户根据样本精确信息为应聘用户推荐职位,以获得样本反馈值F=(f0,f1,…,fk,…,fn),其值域仍为R=(r0,r1,…,rk,…,rn),k=0,1,…,n;继而,根据获得的所述样本反馈值计算所述cell评分函数为:
<mrow> <mi>s</mi> <mi>c</mi> <mi>o</mi> <mi>r</mi> <mi>e</mi> <mrow> <mo>(</mo> <mi>c</mi> <mi>e</mi> <mi>l</mi> <mi>l</mi> <mo>)</mo> </mrow> <mo>=</mo> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>n</mi> </msubsup> <mfrac> <msub> <mi>t</mi> <mi>k</mi> </msub> <mrow> <mi>n</mi> <mo>+</mo> <mn>1</mn> </mrow> </mfrac> <mo>&amp;times;</mo> <mfrac> <msub> <mi>f</mi> <mi>k</mi> </msub> <mrow> <mi>n</mi> <mo>+</mo> <mn>1</mn> </mrow> </mfrac> </mrow>
其中,fk表示所述cell中该样本反馈值为rk的样本个数;由于每次分割均将原空间分割为子空间cell1和cell2,从步骤S214中的所述divider[0…d]取出分割点div,其估值函数为:
val(div)=score(cell1)+score(cell2);
S222:针对当前cell,判断该divider[0…d]中是否存在满足k-匿名的分割点,若存在,则执行S223;若不存在,则执行S226;
S223:根据所述分割点div的估值函数,在divider[0…d]中计算拥有最大估值的分割点divMax,若val(divMax)>score(cell),则通过所述最大估值的divMax将当前空间分割为cell1和cell2,然后针对cell1和cell2分别对应依次执行S224及S225,否则,执行S226;
S224:针对cell1执行S222;
S225:针对cell2执行S222;
S226:将该cell插入到子空间集合C中,并递归上一层;
S227:根据递归分割得到子空间集合C中各cell的边界,对所述原始数据集的准标识符属性进行匿名化处理,从而得到匿名化的用户数据集。
CN201510611209.6A 2015-09-23 2015-09-23 一种众包数据库下的双向k‑匿名方法 Active CN105224881B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510611209.6A CN105224881B (zh) 2015-09-23 2015-09-23 一种众包数据库下的双向k‑匿名方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510611209.6A CN105224881B (zh) 2015-09-23 2015-09-23 一种众包数据库下的双向k‑匿名方法

Publications (2)

Publication Number Publication Date
CN105224881A CN105224881A (zh) 2016-01-06
CN105224881B true CN105224881B (zh) 2017-12-26

Family

ID=54993843

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510611209.6A Active CN105224881B (zh) 2015-09-23 2015-09-23 一种众包数据库下的双向k‑匿名方法

Country Status (1)

Country Link
CN (1) CN105224881B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108234493B (zh) * 2018-01-03 2020-06-09 武汉大学 不可信服务器下隐私保护的时空众包统计数据发布方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101834872A (zh) * 2010-05-19 2010-09-15 天津大学 基于度优先的K-Anonymity匿名算法的数据处理方法
CN101964034A (zh) * 2010-09-30 2011-02-02 浙江大学 一种模式信息损失最小化的序列类数据隐私保护方法
CN104182694A (zh) * 2013-05-22 2014-12-03 株式会社日立制作所 隐私保护型数据提供系统
CN104318167A (zh) * 2014-10-07 2015-01-28 北京理工大学 一种改进的k-匿名中准标识符求解方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101834872A (zh) * 2010-05-19 2010-09-15 天津大学 基于度优先的K-Anonymity匿名算法的数据处理方法
CN101964034A (zh) * 2010-09-30 2011-02-02 浙江大学 一种模式信息损失最小化的序列类数据隐私保护方法
CN104182694A (zh) * 2013-05-22 2014-12-03 株式会社日立制作所 隐私保护型数据提供系统
CN104318167A (zh) * 2014-10-07 2015-01-28 北京理工大学 一种改进的k-匿名中准标识符求解方法

Also Published As

Publication number Publication date
CN105224881A (zh) 2016-01-06

Similar Documents

Publication Publication Date Title
WO2021004333A1 (zh) 基于知识图谱的事件处理方法、装置、设备和存储介质
Prasser et al. Putting statistical disclosure control into practice: The ARX data anonymization tool
CN111178950A (zh) 一种用户画像构建方法、装置及计算设备
KR20120015326A (ko) 보안 및/또는 프라이버시 세팅 관리 시스템들 및 방법들
Oguntunde et al. The Gompertz fréchet distribution: properties and applications
WO2021139343A1 (zh) 基于自然语言处理的数据分析方法、装置和计算机设备
CN106936781A (zh) 一种用户操作行为的判定方法及装置
McNeish Estimation methods for mixed logistic models with few clusters
Mahmoudi et al. The compound class of linear failure rate-power series distributions: Model, properties, and applications
CN111737364B (zh) 安全多方数据融合与联邦共享方法、装置、设备及介质
Degeling et al. A scoping review of metamodeling applications and opportunities for advanced health economic analyses
Ab Aziz et al. The determinant factors of Electronic Document and Records Management System (EDRMS) adoption in public sector: a UTAUT-based conceptual model
CN105224881B (zh) 一种众包数据库下的双向k‑匿名方法
WO2019085118A1 (zh) 基于主题模型的关联词分析方法、电子装置及存储介质
Rodriguez-Garcia et al. Semantic noise: privacy-protection of nominal microdata through uncorrelated noise addition
US20190130000A1 (en) Querying of profile data by reducing unnecessary downstream calls
CN113326363A (zh) 搜索方法及装置、预测模型训练方法及装置、电子设备
WO2021186287A1 (en) Vector embedding models for relational tables with null or equivalent values
Liebscher Approximation of distributions by using the Anderson Darling statistic
AU2014200112A1 (en) Data management system and tool
CN110991169A (zh) 一种风险内容变种的识别方法、装置及电子设备
CN110765387A (zh) 用户界面生成方法、装置、计算设备及存储介质
WO2019019711A1 (zh) 行为模式数据的发布方法、装置、终端设备及介质
CN112465282B (zh) 一种针对企业决策的计算机模拟方法及系统
CN111324701B (zh) 内容补充方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant