CN111431907B

CN111431907B - 一种针对聚合位置数据系统的隐私保护性能评估系统

Info

Publication number: CN111431907B
Application number: CN202010226905.6A
Authority: CN
Inventors: 张安琪; 赵萍; 张光林
Original assignee: Donghua University
Current assignee: Donghua University
Priority date: 2020-03-27
Filing date: 2020-03-27
Publication date: 2021-12-10
Anticipated expiration: 2040-03-27
Also published as: CN111431907A

Abstract

本发明涉及一种针对聚合位置数据的成员推测攻击系统，包括：语义轨迹转化模块，将用户的地理轨迹转化为能够描述用户移动模式的语义轨迹；用户移动性建模模块，分析目标用户社交网络好友的行为模式，将其建模为区域集上与时间相关的一阶马尔可夫链；轨迹相似性计算模块，利用EMD相似性度量函数计算轨迹间的相似性，从而获得目标用户的合成轨迹；二元分类器训练模块，利用合成轨迹参与和不参与数据聚合所得到的统计结果之间的差异，训练一个二元分类器，当有新的统计结果输出时，能够成功推测目标用户是否参与了数据聚合。本发明能够仅以目标用户的社交关系数据来合成目标用户的轨迹，同时训练二元分类器，成功实现数据聚合中的成员推测攻击。

Description

一种针对聚合位置数据系统的隐私保护性能评估系统

技术领域

本发明涉及数据聚合中的隐私安全问题领域，特别是涉及一种针对聚合位置数据系统的隐私保护性能评估系统。

背景技术

随着移动计算技术的快速发展，越来越多用户的位置数据被聚合，进而发布其统计结果以支持某些应用，例如朋友推荐、兴趣点搜索、实时定位等。然而，位置数据直接包含了用户的行踪，在一定程度上揭露了用户的身份信息、兴趣爱好、生活习惯等敏感信息。数据聚合通常被认为是防止个人用户数据公开的一种方法，但在聚合场景中，访问在敏感时间或敏感位置收集的统计信息也将侵犯聚合成员的隐私。

目前，有关数据聚合中隐私安全方面的研究主要集中在设计隐私保护算法，只有少量学者提出了攻击算法，例如位置注入攻击，时空关联攻击等，缺少对成员推测攻击的研究。除此之外，成员推测攻击大多被用于机器学习模型或基因序列的研究中，且现有工作均假设敌手在攻击过程中掌握目标用户的具体数据，这也导致了一定程度的隐私泄露。

发明内容

本发明的目的是：在只掌握目标用户背景信息的情况下，根据聚合模型输出的位置数据统计结果来判断感兴趣的用户是否参与了此次聚合运算，以此评估位置数据聚合系统的隐私保护性能。

为了达到上述目的，本发明的技术方案是提供了一种针对聚合位置数据系统的隐私保护性能评估系统，其特征在于，包括：

语义轨迹转化模块，用于将用户的地理轨迹转化为能够描述用户移动模式的语义轨迹；

用户移动性建模模块，用于分析目标用户社交网络好友的行为模式，将其建模为区域集上与时间相关的一阶马尔可夫链；

轨迹相似性计算模块，利用EMD相似性度量函数计算语义轨迹间的相似性，从而获得目标用户的合成轨迹；

二元分类器训练模块，利用合成轨迹参与和不参与数据聚合所得到的统计结果之间的差异，训练一个二元分类器，当有新的统计结果输出时，能够成功推测目标用户是否参与了聚合。

优选地，所述语义轨迹转化模块对用户签到的地理位置(x_i,y_i)进行聚类操作，将具有相同语义特征的位置用同一语义r_j表示，并认为它们均是以相同的方式被访问，同时将轨迹上的位置点用对应的语义替换，由此完成地理轨迹tra_u＝{(x₀,y₀),(x₁,y₁),...,(x_i,y_i),...,(x_m,y_m)}到语义轨迹

的转化，其中，u表示用户，

表示用户u的语义轨迹，

表示用户u轨迹中的第n个位置语义。

优选地，所述用户移动性建模模块将用户移动性建模为区域集上与时间相关的一阶马尔可夫链，并将用户运动轨迹的马尔可夫模型定义为<p(u),π(u)>二元组，并计算p(u)、π(u)，其中p(u)为用户的转移概率矩阵，π(u)为用户的访问概率集合。

优选地，所述轨迹相似性计算模块采用EMD距离来衡量不同轨迹之间的相似度，对于任意两个分布p、q，EMD(p,q)表示分布p转化为分布q的最小代价，即p和q的相似度越高，EMD(p,q)越小，通过计算EMD(p,q)，可获得目标用户社交网络中与其移动模式相似度最高的用户，由此得到目标用户的合成轨迹。

优选地，所述二元分类器训练模块用两种输入分别对聚合模型发起查询，其中一种输入由合成轨迹与一部分普通用户真实轨迹组成，将其通过聚合模型后的输出标记为“in”并添加到二元分类器的训练集中；聚合模型的另一种输入，全部由真实轨迹组成，其输出标记为“out”，同样也添加到二元分类器的训练集中；由此，通过训练，二元分类器学会识别目标用户参与和不参与聚合运算时所得到的输出的差异，当有新的统计结果输出时，该二元分类器能够成功推测目标用户是否参与了聚合运算。

由于采用了上述的技术方案，本发明与现有的技术相比，具有以下的优点和积极效果：该方案能够在不掌握目标用户真实位置数据的情况下，针对社交关系对用户移动性的影响，通过其社交关系数据来合成其位置数据，以便后续对聚合的位置数据发起成员推测攻击，由此评估位置数据聚合系统的隐私保护性能。通过在真实的签到数据上对该方案进行验证，证明了该方案能够作为隐私度量，反映用户所参与的位置数据聚合系统的成员隐私风险，攻击准确率越高，则表示聚合系统的隐私保护性能越差。

附图说明

图1是实施例的工作流程示意图；

图2是实施例中针对聚合位置数据系统的隐私保护性能评估系统实现的方法流程图；

图3是实施例中二元分类器训练过程；

图4是实施例中针对位置数据聚合的隐私保护性能评估系统实现的模块示意图

图5A及图5B是本方案与其他两个方案分别在单个、多个目标用户情况下的攻击准确率的对比结果。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

图1示出了本发明一个实施例中的工作流程示意图。利用给定的聚合模型F_agg，服务提供商将会以API的方式来给用户提供基于给定聚合模型F_agg的聚合分析服务，这个API给用户提供了一个F_agg的黑盒子接口。用户可以将带有多个数据实例的查询发送给服务提供商，并接收统计结果。敌手使用这种服务来收集有关聚合组的隐私信息。利用目标用户的任何背景信息，敌手可以构建成员推测攻击模型F_attack，以实时发起成员推测攻击。

图2示出了一个实施例中针对位置数据聚合的隐私保护性能评估系统实现的方法流程图。如图2所示，该实施例中的针对位置数据聚合的隐私保护性能评估系统实现的方法包括：

步骤1：将目标用户社交网络中好友f_i的地理轨迹与f_i好友

的地理轨迹均转化为能够描述用户移动模式的语义轨迹；

步骤2：根据语义轨迹，将上述用户的移动性建模为区域集上与时间相关的一阶马尔可夫链，计算转移概率矩阵和访问概率向量；

步骤3：利用EMD相似性度量函数计算轨迹相似度，选出1条与集内轨迹相似度最高的轨迹，作为目标用户的合成轨迹

步骤4：构建两种输入数据集，对于包含

在内的输入，经过聚合模型后输出标记为“in”，对于不包含

在内的输入，经过聚合模型后输出标记为“out”，多次执行以上查询，将标记后的数据作为训练数据集，以此来训练二元分类器。

其中所述步骤2，包括如下步骤：

步骤2.1：采用基于用户行为模式的方法构建轨迹。假设用户u在统计时长τ内的轨迹记录为

其中，r_i为用户u在τ_i时刻所在的位置区域，i＝0,1,……,n，τ_i时刻为统计时长τ内的第i个时刻。我们同时考虑位置和时间，将用户的移动性建模为区域集上与时间相关的一阶马尔可夫链。用户运动轨迹的马尔可夫模型定义为<p(u),π(u)>，其中p(u)为转移概率矩阵，π(u)为访问概率向量，

为用户u由位置区域r_i移动到位置区域r_j的条件转移概率，

为用户在τ_i时刻所对应的时间段内位于位置区域r_i的概率，因此可以得到以下公式：

其中，Υ^t、Γ^t分别表示用户u的区域变量和时间变量，t表示当前时刻。

其中所述步骤3，包括如下步骤：

步骤3.1：采用相似性度量函数EMD计算轨迹相似度。对于任意两个分布x、y，EMD(x,y)表示分布x转化为分布y的最小代价，即x和y的相似度越高，EMD(x,y)越小，因此可以用来度量两个轨迹间的相似性。

设X和Y分别为定义在状态空间Ω_X＝{x_i|i＝0,1,…,n_i}和Ω_Y＝{y_j|j＝0,1,…,n_j}的离散型随机变量，x_i表示X的第i个状态，n_i表示X的状态个数，y_j表示Y的第j个状态，n_j表示Y的状态个数。P_X、P_Y分别是X和Y位于Ω_X、Ω_Y上的概率分布，则分布P_X和P_Y的EMD距离定义为：

f_ij≥0,0≤i≤n_i,0≤j≤n_j

其中，f_ij为X＝_i和Y＝_j的联合概率分布，d(x_i,y_j)为X＝x_i和Y＝y_j间的距离，

表示X的边缘概率分布，，

表示Y的边缘概率分布，。将EMD距离应用在用户u、v的两条轨迹

的相似度计算中，有如下公式：

则用户u、v轨迹行为模式的相似性为：

式中，z_G表示归一化系数，确保sim_G(u,v)∈[0,1]。

其中所述步骤4，包括如下步骤：

步骤4.1：如图3所示，该实施例中的二元分类器构建的具体方法如下：定义数据集中所有用户的集合为U＝{u₁,u₂,...,u_n}，用户的轨迹集合定义为

首先，攻击者选择一个感兴趣的用户u_target，利用上述的算法合成该用户的轨迹为

然后创建μ个与目标模型相同的聚合模型，对于每一次查询，从用户集U中随机选择k-1个用户，不包括u_target，记这k-1个用户的轨迹为集合

i＝1,2,…,μ。将Tra′_i与

一起作为聚合模型的一个输入。之后，再从用户集U中随机选择k个用户，不包括u_target，这k个用户的轨迹定义为Tra″_i构成了聚合模型的另一个输入。设聚合模型为f_AM()，针对这两个输入，聚合模型分别计算相应的输出

和y″_i＝f_AM(Tra″_i)，并将标记好标签的数据(y_i′,"in")和(y″_i,"out")放入攻击模型的训练数据集

中，最后用

教会攻击模型如何根据聚集模型的输出来区分u_target的轨迹是否参与聚合运算。通过多次迭代来实现这种攻击，概率大于1/2(即随机猜测)即为攻击成功，攻击准确率越高，则该位置数据聚合系统的隐私保护性能越差。

基于与上述方法相同的思想，本发明实施例还提供一种针对聚合位置数据系统的隐私保护性能评估系统的数据模块。图4示出了一个实施例中的针对位置数据聚合的隐私保护性能评估系统的模块示意图，其数据模块包括：语义轨迹转化模块401，将用户的地理轨迹转化为能够描述用户移动模式的语义轨迹；用户移动性建模模块402，分析目标用户社交网络好友的行为模式，将其建模为区域集上与时间相关的一阶马尔可夫链；轨迹相似性计算模块403，利用EMD相似性度量函数计算轨迹间的相似性，从而获得目标用户的合成轨迹；二元分类器训练模块404，利用合成轨迹参与和不参与数据聚合所得到的统计结果之间的差异，训练一个二元分类器，当有新的统计结果输出时，能够成功推测目标用户是否参与了聚合，以此衡量该位置数据聚合系统的隐私保护性能。

图5A及图5B示出了本方案与其他两个方案分别在单个、多个目标用户情况下的攻击准确率的对比结果。其中Baseline1表示在构建二元分类器的过程中用目标用户的真实轨迹代替

以此训练二元分类器所得到的性能；Baseline2表示在构建二元分类器的过程中用目标用户社交网络中单个朋友的真实轨迹代替

以此训练二元分类器所得到的性能。实验结果验证了该方案的有效性，证明了该评估系统能够用来衡量位置数据聚合中的隐私保护性能。

Claims

1.一种针对聚合位置数据系统的隐私保护性能评估系统，其特征在于，包括：

语义轨迹转化模块，用于将目标用户社交网络中好友f_i的地理轨迹与好友f_i的好友

的地理轨迹均转化为能够描述用户移动模式的语义轨迹；

语义轨迹转化模块对用户签到的地理位置(x_i，y_i)进行聚类操作，将具有相同语义特征的位置用同一语义r_j表示，并认为它们均是以相同的方式被访问，同时将轨迹上的位置点用对应的语义替换，由此完成地理轨迹tra_u＝{(x₀，y₀)，(x₁，y₁)，...，(x_i，y_i)，...，(x_m，y_m)}到语义轨迹

的转化，其中，u表示用户，

表示用户u的语义轨迹，u_n表示用户u轨迹中的第n个位置语义；

用户移动性建模模块，用于分析目标用户社交网络好友的行为模式，采用基于用户行为模式的方法构建轨迹，假设用户u在统计时长τ内的轨迹记录为

其中，r_i为用户u在τ_i时刻所在的位置区域，i＝0，1，......，n，τ_i时刻为统计时长τ内的第i个时刻；同时考虑位置和时间，将用户的移动性建模为区域集上与时间相关的一阶马尔可夫链；用户运动轨迹的马尔可夫模型定义为<p(u)，π(u)>，其中p(u)为用户的转移概率矩阵，π(u)为用户的访问概率集合，

为用户u由位置区域r_i移动到位置区域r_j的条件转移概率，

为用户在τ_i时刻所对应的时间段内位于位置区域r_i的概率，得到以下公式：

其中，Υ^t、Γ^t分别表示用户u的区域变量和时间变量，t表示当前时刻；

轨迹相似性计算模块，利用EMD相似性度量函数计算语义轨迹间的相似性，可获得目标用户社交网络中与其移动模式相似度最高的用户，由此得到目标用户的合成轨迹；

2.如权利要求1所述的一种针对聚合位置数据系统的隐私保护性能评估系统，其特征在于，所述轨迹相似性计算模块采用EMD距离来衡量不同轨迹之间的相似度，对于任意两个分布p、q，EMD(p，q)表示分布p转化为分布q的最小代价，p和q的相似度越高，EMD(p，q)越小。

3.如权利要求1所述的一种针对聚合位置数据系统的隐私保护性能评估系统，其特征在于，所述二元分类器训练模块用两种输入分别对聚合模型发起查询，其中一种输入由合成轨迹与一部分普通用户真实轨迹组成，将其通过聚合模型后的输出标记为in并添加到二元分类器的训练集中；聚合模型的另一种输入，全部由真实轨迹组成，其输出标记为out，同样也添加到二元分类器的训练集中；由此，通过训练，二元分类器学会识别目标用户参与和不参与聚合运算时所得到的输出的差异，当有新的统计结果输出时，该二元分类器能够成功推测目标用户是否参与了聚合运算。