CN105224881B

CN105224881B - 一种众包数据库下的双向k‑匿名方法

Info

Publication number: CN105224881B
Application number: CN201510611209.6A
Authority: CN
Inventors: 丁晓锋; 金海�; 张凡
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2015-09-23
Filing date: 2015-09-23
Publication date: 2017-12-26
Anticipated expiration: 2035-09-23
Also published as: CN105224881A

Abstract

本发明公开了一种众包数据库下的双向k‑匿名方法，其中，该方法包括：首先，针对公司职位数据集进行k‑匿名处理；接着，针对应聘用户的原始数据集进行分阶段的匿名化处理；继而，将获得的匿名化的公司职位数据集和匿名化的用户数据集一同发布到众包平台，在注册用户做职业推荐任务后，得到用户‑公司职位关系表A及用户‑公司职位关系表B；对所述用户‑公司职位关系表A和所述用户‑公司职位关系表B进行交集运算，得到最终确定的用户‑公司职位关系表。本发明不仅解决了众包数据库下不能同时保护应聘用户与公司双方隐私的问题，同时通过对应聘用户的原始数据的匿名化处理，在保证双方隐私不被泄露的同时，显著提高了匿名数据的可用性。

Description

一种众包数据库下的双向K-匿名方法

技术领域

本发明属于隐私保护领域，更具体地，涉及一种众包数据库下的双向k-匿名方法。

背景技术

众包(crowdsourcing)是指一个公司或机构把过去由员工执行的工作任务，以自由自愿的形式外包给非特定的(而且通常是大型的)大众网络的做法，如亚马逊的Mechanical Turk。众包的工作流程具体如下：1、公司将任务及相关数据发布到众包平台；2、众包平台上的注册用户(human worker)接受任务后获得相关数据；3、human worker完成任务，将结果返回给公司，并获得相应报酬。

近几年，随着众包技术的流行，其被越来越多的用于处理那些对计算机较难而对人较易的数据分析任务。于是，一种在众包环境下由人参与的新型数据库模型被提出，即众包数据库。例如，人才招聘网站(如51Job、ChinaHR)，可以将其接收到的求职者简历与公司职位信息发布到众包平台，并提供相应的报酬让human worker完成职业推荐任务。

然而，由于众包数据库中human worker可以直接获得任务相关数据，这其中可能包含应聘用户隐私信息(如用户个人简历中的联系方式，健康状况等)与公司隐私信息(如薪金水平、加班情况及补贴等)，因此，上述过程可能造成应聘用户隐私信息与公司隐私信息的泄露，所以必须对众包数据库做隐私保护处理。

隐私保护处理的一个有效手段是数据匿名化，其基本思想是隐藏原始数据中的部分信息。k-匿名是数据匿名化中最重要的模型之一，其保证数据匿名化后拥有相同准标识符属性的元组个数至少为k，从而使攻击者无法推理出特定个体的隐私信息。但针对众包数据库下涉及供需求双方的应用场景，现有的k-匿名技术存在以下缺陷：(1)数据匿名化处理后会造成原始数据中部分有效信息的丢失，从而导致human worker完成众包任务的正确率降低，也就是说数据匿名化处理后的可用性低；(2)由于众包数据库中可能包含应聘用户及公司双方的隐私信息，现有的k-匿名技术仅能保护一方的隐私信息，而不能同时保护应聘用户与公司双方的隐私信息。相应地，本领域亟需寻找一种适用于众包数据库环境下双方隐私保护的方法。

发明内容

针对现有技术的以上缺陷或不足，本发明提供了一种众包数据库下的双向k-匿名方法，其中通过双向k-匿名机制分别对公司职位数据集和应聘用户的原始数据集执行匿名化处理，同时，尤其是针对应聘用户的原始数据集，本发明进行了专门的设计，提出了一种基于空间分割的两阶段k-匿名算法，相应能够有效解决匿名化处理后，导致原始数据集中部分有效信息的丢失，及众包数据库环境下k-匿名技术无法同时保护双方隐私的问题。通过执行本发明中的方案，在同时保护双方隐私的基础上，还显著提高了匿名数据的可用性，因而尤其适用于众包数据库环境下包含供需求双方之类的应用场合。

为实现上述目的，本发明提出了一种众包数据库下的双向k-匿名方法，其特征在于，所述方法具体包括以下步骤：

S1：首先，针对公司职位数据集，对其进行k-匿名处理：具体包括将所述公司职位数据集按属性拆分为两个数据集，其一是将所述公司职位数据集中除准标识符属性外的其他属性匿名化为空，处理后得到的所述公司职位数据集中仅包含准标识符属性；另一是将所述公司职位数据集中准标识符属性匿名化为空，处理后得到的所述公司职位数据集中包含除准标识符属性之外的其他所有属性，由此获得匿名化的仅包含准标识符属性的第一公司职位数据集和匿名化的不包含准标识符属性的第二公司职位数据集；

S2：接着，继续针对应聘用户的原始数据集进行分阶段的匿名化处理，具体包括：通过获取的所述原始数据集的样本真实值对该原始数据集构成的空间进行虚拟分割，得到最优分割点；继而，根据上述获得的该最优分割点和获取的所述原始数据集的样本反馈值递归地分割所述原始数据集构成的空间，从而得到子空间集合，最后根据子空间集合中各子空间的边界对该原始数据集做匿名化处理，由此获得匿名化的用户数据集；

S3：将得到的所述第一公司职位数据集和所述用户数据集一同发布到众包平台，在注册用户做职业推荐任务后，得到用户-公司职位关系表A；

S4：将得到的所述第二公司职位数据集和所述用户数据集一同发布到众包平台，在注册用户做职业推荐任务后，得到用户-公司职位关系表B；

S5：最后，将上述步骤得到的所述用户-公司职位关系表A和所述用户-公司职位关系表B，进行交集运算，得到最终确定的用户-公司职位关系表。

作为进一步优选的，对于步骤S2而言，优选采用基于空间分割的两阶段k-匿名算法，该步骤具体包括以下子步骤：首先根据获取的原始数据集的样本真实值对用户数据集构成的空间做第一阶段的虚拟分割，具体包括：

S211：首先，针对应聘用户的原始数据集随机抽样，提取样本数据中应聘用户的曾经职业或当前职业作为所述应聘用户的真实值r_k，其中r_k∈R，R为职业种类，即真实值值域R＝(r₀,r₁,…,r_k,…,r_n)，k＝0,1,…,n；

S212：接着，将匿名化处理后具有相同准标识符属性的应聘用户记为所述多维空间的子空间cell，其中，每个cell均包含以下信息：位于该cell内的应聘用户个数、样本个数和样本真实值；继而，得到该cell中样本真实值分布T＝(t₀,t₁,…,t_k,…,t_n)的方差为：

其中t_k表示该cell中真实值为r_k的样本个数，其中k为样本真实值分布中的取值个数，k＝0,1,…,n；；所述样本的准标识符属性构成该空间的候选分割点集合P＝{P_i|0≤i≤d}，其中i表示所述原始数据集构成的多维空间的维度，即所述原始数据集中各准标识符属性；设第i维上候选分割点集合为P_i＝(p_i0,p_i1,...,p_ij,...,p_im)，其中j＝0,1,…,m为候选分割点集合中的取值个数，那么所述P_i中p_ij的估值函数为：

val(p_ij)＝∑_T∈Γvar(T)

其中Γ表示被p_ij分割后产生的所有cell对应的T的集合；

S213：根据上述估值函数分别计算第0～n维上每个候选分割点p_ijp_ij的估值，得到拥有最大估值的最优分割点p_ik，其中k∈[0,1,...,m]；

S214：将所述p_ik从所述P_i中删除，并添加p_ik到第i维最优分割点集合divider[i]中，记divider[0…d]为多维空间中最优分割点的数组，i表示维度；

S215：判断候选分割点集合P中是否存在合法分割点，即是否满足k-匿名，若存在，则执行步骤S213；若不存在，则算法结束，divider[0…d]为产生结果。

继而，针对上述步骤S211中得到的所述样本数据，将其发送到众包平台，根据获取的反馈值进行正式的空间分割，即执行基于空间分割的两阶段的k-匿名算法中第二阶段正式的分割空间，具体包括如下步骤：

S221：将步骤S211中获得的所述样本数据发布到众包平台，注册用户根据样本精确信息为应聘用户推荐职位，以获得样本反馈值F＝(f₀,f₁,…,f_k,…,f_n)，其值域仍为R＝(r₀,r₁,…,r_k,…,r_n)，k＝0,1,…,n；继而，根据获得的所述样本反馈值计算所述cell评分函数为：

其中，f_k表示所述cell中该样本反馈值为r_k的样本个数；由于每次分割均将原空间分割为子空间cell₁和cell₂，从步骤S214中的所述divider[0…d]取出分割点div，其估值函数为：

val(div)＝score(cell₁)+score(cell₂)；

S222：针对当前cell，判断该divider[0…d]中是否存在满足k-匿名的分割点，若存在，则执行S223；若不存在，则执行S226；

S223：根据所述分割点div的估值函数，在divider[0…d]中计算拥有最大估值的分割点divMax，若val(divMax)>score(cell)，则通过所述最大估值的divMax将当前空间分割为cell₁和cell₂，然后针对cell₁和cell₂分别对应依次执行S224及S225，否则，执行S226；

S224：针对cell₁执行S222；

S225：针对cell₂执行S222；

S226：将该cell插入到子空间集合C中，并递归上一层；

S227：根据递归分割得到子空间集合C中各cell的边界，对所述原始数据集的准标识符属性进行匿名化处理，从而得到匿名化的用户数据集。

总体而言，按照本发明点的以上技术方案与现有技术相比，主要具备以下的技术优点：

1、本申请中通过结合众包数据库下包含供需求双方关系的运用需求，相应对用户数据集及公司职位数据集同时执行k-匿名处理，由此，注册用户human worker通过众包数据库获得的数据均是匿名处理后的数据，能够有效起到保护用户及公司双方隐私的作用；

2、此外，本发明中专门针对用户数据集提出了基于空间分割的两阶段k-匿名算法，这样能够在确保用户隐私和公司隐私得到有效保护的同时，最大可能的保留原始数据中的可用信息，显著提高了匿名化后数据的可用性，使得human worker完成众包任务时的正确率增加；

3、按照本发明提出的众包数据库下的双向k-匿名方法，在双方隐私均达到有效保护及匿名化数据可用性得到提高的同时，并未存在过多的计算复杂度，便于操控，，因而具有一定的可实施性及实用推广价值。

附图说明

图1是本发明众包数据库下的双向k-匿名方法的执行流程图；

图2是本发明中提出的基于空间分割的两阶段k-匿名算法示意图；

图3是本发明中进一步优选的k-匿名算法第一阶段流程图；

图4是本发明中进一步优选的k-匿名算法第二阶段流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，本发明提供了一种众包数据库下的双向k-匿名方法：

(1)对公司职位数据集进行两种极端的k-匿名处理：第一种是将所述公司职位数据集中准标识符属性外的其他属性匿名化为空，处理后得到仅包含准标识符属性的第一公司职位数据集；第二种是将所述公司职位数据集中准标识符属性匿名化为空，处理后得到包含除准标识符属性之外的其他所有属性的第二公司职位数据集；

(2)对应聘用户的原始数据集做k-匿名处理，采用基于空间分割的两阶段的k-匿名算法，如图2所示，具体包括：

首先针对应聘用户的原始数据集随机抽取样本数据，根据获得的所述原始数据集的样本真实值对该原始数据集构成的空间做第一阶段的虚拟分割，如图3所示，具体包括以下步骤：

S211：首先，针对应聘用户的原始数据集随机抽样，提取样本数据中应聘用户的曾经职业或当前职业作为所述应聘用户的真实值r_k，其中r_k∈R，R为职业种类，即真实值值域R＝(r₀,r₁,…,r_k,…,r_n)，其中k为值域取值个数，k＝0,1,…,n；

val(p_ij)＝∑_T∈Γvar(T)

其中Γ表示被p_ij分割后产生的所有cell对应的T的集合；

S214：将所述p_ik从所述P_i中删除，并添加p_ik到第i维最优分割点集合divider[i]中，记divider[0…d]为多维空间中最优分割点的数组，i表示维度；S215：判断候选分割点集合P中是否存在合法分割点，即是否满足k-匿名，若存在，则执行步骤S213；若不存在，则算法结束，divider[0…d]为产生结果。

继而，将获取的应聘用户的原始数据集的样本数据发布到众包平台，根据获取的样本反馈值进行正式的空间分割，即基于空间分割的两阶段的k-匿名算法中的第二阶段正式的分割空间，如图4所示，具体包括以下步骤：

S221：将步骤S211中获得的所述样本数据发布到众包平台，注册用户根据样本精确信息为应聘用户推荐职位，以获得样本反馈值F＝(f_i,f₁,…,f_k,…,f_n)，其值域仍为R＝(r₀,r₁,…,r_k,…,r_n)，k＝0,1,…,n；继而，根据获得的所述样本反馈值计算所述cell评分函数为：

val(div)＝score(cell₁)+score(cell₂)；

S224：针对cell₁执行S222；

S225：针对cell₂执行S222；

S226：将该cell插入到子空间集合C中，并递归上一层；

(3)将上述步骤获得的匿名化的所述用户数据集和所述第一公司职位数据集发布到众包平台，在注册用户human worker做职业推荐任务后，得到用户-公司职位关系表A。

(4)将上述步骤获得的匿名化的所述用户数据集和所述第二公司职位数据集发布到众包平台，在注册用户human worker做职业推荐任务后，得到用户-公司职位关系表B。

(5)将所述用户-公司职位关系表A和所述用户-公司职位B进行交集运算，得到最终确定的用户-公司职位关系表。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种众包数据库下的双向k-匿名方法，其特征在于，所述方法具体包括以下步骤：

S1：首先，针对公司职位数据集，对其进行k-匿名处理：具体包括将所述公司职位数据集按属性拆分为两个数据集，其一是将所述公司职位数据集中除准标识符属性外的其他属性匿名化为空，处理后得到仅包含准标识符属性的所述公司职位数据集；另一是将所述公司职位数据集中准标识符属性匿名化为空，处理后得到包含除准标识符属性之外的其他所有属性的所述公司职位数据集，由此获得匿名化的仅包含准标识符属性的第一公司职位数据集和匿名化的不包含准标识符属性的第二公司职位数据集；

S5：最后，将步骤S3得到的所述用户-公司职位关系表A和步骤S4得到的所述用户-公司职位关系表B，进行交集运算，得到最终确定的用户-公司职位关系表。

2.如权利要求1所述的众包数据库下的双向k-匿名方法，其特征在于，针对步骤S2中将所述原始数据集构成的空间进行虚拟分割，具体包括：

S212：接着，将匿名化处理后具有相同准标识符属性的应聘用户记为所述原始数据集构成的多维空间的子空间cell，其中，每个cell均包含以下信息：位于该cell内的应聘用户个数、样本个数和样本真实值；继而，得到该cell中样本真实值分布T＝(t₀,t₁,…,t_k,…,t_n)的方差为：

<mrow> <mi>var</mi> <mrow> <mo>(</mo> <mi>T</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>n</mi> </msubsup> <msubsup> <mi>t</mi> <mi>k</mi> <mn>2</mn> </msubsup> </mrow> <mrow> <mi>n</mi> <mo>+</mo> <mn>1</mn> </mrow> </mfrac> <mo>-</mo> <msup> <mrow> <mo>(</mo> <mfrac> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>n</mi> </msubsup> <msub> <mi>t</mi> <mi>k</mi> </msub> </mrow> <mrow> <mi>n</mi> <mo>+</mo> <mn>1</mn> </mrow> </mfrac> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow>

其中t_k表示该cell中真实值为r_k的样本个数，k＝0,1,…,n；所述样本的准标识符属性构成该空间的候选分割点集合P＝{P_i|0≤i≤d}，其中i表示所述原始数据集构成的多维空间的维度，即所述原始数据集中各准标识符属性；设第i维上候选分割点集合为P_i＝(p_i0,p_i1,...,p_ij,...,p_im)，其中j＝0,1,…,m为候选分割点集合中的取值个数，那么所述P_i中p_ij的估值函数为：

val(p_ij)＝∑_T∈Γvar(T)

其中Γ表示被p_ij分割后产生的所有cell对应的T的集合；

S213：根据上述估值函数分别计算第0～n维上每个候选分割点p_ij的估值，得到拥有最大估值的最优分割点p_ik，其中k∈[0,1,...,m]；

3.如权利要求2所述的众包数据库下的双向k-匿名方法，其特征在于，所述步骤S2具体包括：

<mrow> <mi>s</mi> <mi>c</mi> <mi>o</mi> <mi>r</mi> <mi>e</mi> <mrow> <mo>(</mo> <mi>c</mi> <mi>e</mi> <mi>l</mi> <mi>l</mi> <mo>)</mo> </mrow> <mo>=</mo> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>n</mi> </msubsup> <mfrac> <msub> <mi>t</mi> <mi>k</mi> </msub> <mrow> <mi>n</mi> <mo>+</mo> <mn>1</mn> </mrow> </mfrac> <mo>&times;</mo> <mfrac> <msub> <mi>f</mi> <mi>k</mi> </msub> <mrow> <mi>n</mi> <mo>+</mo> <mn>1</mn> </mrow> </mfrac> </mrow>

val(div)＝score(cell₁)+score(cell₂)；

S224：针对cell₁执行S222；

S225：针对cell₂执行S222；

S226：将该cell插入到子空间集合C中，并递归上一层；