CN112800458A

CN112800458A - 社交网络中基于用户间关系强度的轨迹隐私保护方法

Info

Publication number: CN112800458A
Application number: CN202110101588.XA
Authority: CN
Inventors: 李家春; 陈郭钱
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-01-26
Filing date: 2021-01-26
Publication date: 2021-05-14
Anticipated expiration: 2041-01-26
Also published as: CN112800458B

Abstract

本发明公开了一种社交网络中基于用户间关系强度的轨迹隐私保护方法，包括：1)用户分享原始轨迹及个性化需求，并对轨迹预处理得到待保护轨迹；2)提取社交网络数据中用户背景属性、连接及交互三个维度的特征数据并计算得到特征向量；3)将特征向量形成的数据经过K‑means聚类及BP神经网络计算用户间的关系强度RS；4)设计一种满足差分隐私的半径限制地理不可分机制；5)将用户与好友之间的关系强度与隐私预算进行映射，对待保护轨迹使用半径限制地理不可分机制及位置聚类进行隐私保护，再将保护后轨迹发送给对应的好友。本发明考虑多个维度的关系特征并综合无监督聚类及神经网络方法计算关系强度，同时利用半径限制及位置聚类以提高隐私保护效用。

Description

社交网络中基于用户间关系强度的轨迹隐私保护方法

技术领域

本发明涉及社交网络中轨迹隐私保护的技术领域，尤其是指一种社交网络中基于用户间关系强度的轨迹隐私保护方法。

背景技术

随着移动社交网络的兴起及GPS定位技术的广泛应用，人们经常通过各种运动软件记录并在微博、朋友圈等社交软件中分享自己的轨迹。考虑到社交圈中存在大量弱关系，用户不得不考虑好友攻击带来的轨迹隐私泄露及由此带来的人身财产安全威胁。尽管大部分社交软件可通过设置权限来屏蔽关系强度较弱的好友，但用户与好友之间的关系是动态变化的。因此，更现实的做法是允许不同的朋友查看不同的轨迹信息，并且应根据关系强度的变化动态调整策略和权限。

根据已有研究，用户关系强度挖掘模型主要分为图模型、相似度模型和概率模型三类，很少有从多个维度考虑用户间关系强度的影响因素并同时利用无监督聚类加有监督神经网络模型进行关系强度的计算。轨迹隐私保护的研究主要包括假数据法，泛化法，抑制法和差分隐私模型。虽然差分隐私模型现在被认为是最好的可以不考虑对手背景知识的一种满足严格数学定义的隐私保护方法，但其存在数据可用性较差的问题。而且现有的隐私保护方法不能根据用户需求进行个性化、细粒度的隐私保护。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提出了一种社交网络中基于用户间关系强度的轨迹隐私保护方法，从多维度及利用无监督聚类加神经网络方法计算得到关系强度，并根据用户的个性化需求及关系强度对轨迹进行细粒度的隐私保护。

为实现上述目的，本发明所提供的技术方案为：社交网络中基于用户间关系强度的轨迹隐私保护方法，包括以下步骤：

1)用户分享原始轨迹及用户的个性化需求，并对轨迹预处理得到待保护轨迹；

2)提取社交网络数据中用户背景属性数据、连接数据及交互数据三个维度的特征数据，并利用公式计算得到特征向量；

3)将步骤2)中的特征向量形成的数据经过K-means聚类及BP神经网络计算用户间的关系强度RS；

4)设计一种满足差分隐私的半径限制地理不可分机制，应用于地理位置或轨迹的隐私保护并能保证数据的可用性；

5)将用户与好友之间的关系强度与隐私预算进行映射，对待保护轨迹使用半径限制地理不可分机制及位置聚类进行隐私保护，再将保护后轨迹发送给对应的好友。

在步骤1)中，要求轨迹为按照时间顺序组成的地理位置点的序列，且地理位置点由经纬度决定；对原始轨迹采用Douglas-Peucker压缩算法及相邻点去重的预处理方式得到待保护轨迹，确保序列长度不少于2，且轨迹即使密集也不能超过规定，其中用户个性化需求为保护与不保护两种，分别用0，1标记。

在步骤2)中，由三个维度的特征数据计算出的一对用户i与好友j之间的特征向量

其中，每个维度计算过程具体如下：

a、对于由出生年份、性别、发文数、兴趣爱好形成的背景属性数据计算得到的属性相似度

的计算公式为：

为

的归一化结果，其中

计算公式为：

式中，NQA_i表示用户i的非量化属性向量，NQA_j表示好友j的非量化属性向量，性别、兴趣爱好为非量化属性，每个属性值取0，1中一个；QA_i表示用户i的量化属性向量，QA_j表示好友j的量化属性向量，出生年份、发文数为量化属性，每个属性值为其本身实际值，S^-1为QA_i与QA_j间协方差矩阵的逆，T表示转置，α₁与α₂为权重，且α₁+α₂＝1；

b、对于由用户之间的互相关注形成的连接数据计算得到的连接强度ls_ij的计算公式为：

式中，ω_i表示用户i关注的好友，ω_j表示好友j关注的好友，

表示关注用户i的粉丝，

表示关注好友j的粉丝，

为用户i、好友j处于社交网络图中两者之间的所有长度为l的路径集合，β为衰减系数，γ₁与γ₂为权重，且γ₁+γ₂＝1；

c、对于由评论、转发、涉及@形成的交互数据计算得到的交互强度is_ij计算公式为：

式中，m表示用户i的好友数，n表示好友j的好友数，WS_ij为用户i对好友j的交互加权得分，WS_ji表示好友j对用户i的交互加权得分，WS_ik表示用户i对好友k的交互加权得分，WS_jk表示好友j对其好友k的交互加权得分，计算公式为：

其中，N表示交互类型的数量，I表示所有交互的集合，I_t表示第t种交互的集合，

表示用户i对好友j之间的第t种交互，

表示好友j对用户i之间的第t种交互，

表示用户i对好友k之间的第t种交互，

表示好友j对好友k之间的第t种交互，H(I)为交互熵，计算公式为：

在步骤3)中，将步骤2)计算得到的每个特征向量视作样本并形成样本集合，利用K-means算法将所有样本划分成K个类，得到每个类中心向量，同时重新标记每个样本，即对每个样本增加所属类的标签，形成标记后的样本集合，即标记样本集；接着将标记样本集经过BP神经网络训练得到计算模型，输入任意样本，即可得到概率向量；将每个类中心向量每列进行归一化，并对每列求和排序得到类的排序结果，并依此划分[0,1]为K个区间，以每个区间中心值形成关系强度区间向量；最后将概率向量乘以关系强度区间向量计算得到关系强度RS。

在步骤4)中，半径限制地理不可分机制是基于已有的地理不可分机制进行公式改进：通过限制半径的最大值以保证数据的可用性，同时依然能保证其满足差分隐私，用于地理位置或轨迹的隐私保护，具体如下：

首先，根据待保护轨迹计算出限制的最大半径r_max，公式为：

式中，n为轨迹的位置点个数，l_o表示轨迹的第o个位置点，d(l_o,l_o+1)表示求两个位置点之间的欧几里得距离，ε为隐私预算；

接着，得到半径限制地理不可分机制的概率密度函数如下：

式中，r是原始位置点与隐私保护后位置点之间的距离，θ是原始位置点与隐私保护后位置点间连线相对于笛卡尔系统水平轴的角度；

为了能够根据原始位置点计算隐私保护后的位置点，为θ生成[0,2π)内均匀分布的随机数，r计算公式为：

式中，W_-1是Lambert W函数的-1分支，q是服从[0,1)中均匀分布的随机变量；

在步骤5)中，首先，将步骤3)计算出的关系强度RS与隐私预算ε进行映射：

ε＝DM*AD+RS,DM∈{0,1},AD→∞

其中，DM为用户的个性化需求，AD为调节参数；

接着，对待保护轨迹进行隐私保护，具体步骤如下：

5.1)对于待保护轨迹中的第一个位置点l₁则根据随机生成r与θ，计算对应的隐私保护后的位置点z₁＝l₁+＜rcosθ,rsinθ＞；

5.2)顺序遍历原始轨迹中的剩余每个位置点l_o，利用位置聚类的方法：如果当前位置点l_o与上一个隐私保护后的位置点z_o-1间的距离小于或等于r_max，则当前位置点对应的隐私保护后的位置点z_o＝z_o-1，否则根据随机生成r与θ，计算对应的隐私保护后的位置点z_o＝l_o+＜rcosθ,rsinθ＞；

5.3)将步骤5.1)、5.2)中的隐私保护后的位置点按序形成保护后的轨迹，最后，将隐私保护后的轨迹发送给对应的好友。

本发明与现有技术相比，具有如下优点与有益效果：

1、本发明从多个维度考虑用户关系强度的计算，提出一种综合无监督聚类及神经网络的关系强度计算方法，能够有效的体现关系强度的双向性及合理性。

2、本发明提出一种半径限制地理不可分机制用于轨迹隐私保护，不仅能很好保护隐私同时还可以提高隐私保护后数据的效用。

3、本发明考虑到用户的个性化需求，根据用户的个性化需求及与好友之间的关系强度对轨迹进行细粒度的隐私保护。

4、本发明的隐私保护方法不仅利用提出的半径限制地理不可分机制，还使用位置聚类方法，可以有效减少数据量，提高算法执行效率。

附图说明

图1为本发明方法的整体逻辑流程图。

图2为本发明的关系强度计算模型图。

图3为对待保护轨迹进行隐私保护的流程图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

如图1所示，本实施例公开了一种社交网络中基于用户间关系强度的轨迹隐私保护方法，包括以下步骤：

1)用户分享原始轨迹及用户的个性化需求，并对轨迹预处理得到待保护轨迹；要求轨迹为按照时间顺序组成的地理位置点的序列，且地理位置点由经纬度决定；对原始轨迹采用Douglas-Peucker压缩算法及相邻点去重的预处理方式得到待保护轨迹，确保序列长度不少于2，且轨迹不过分密集，其中用户个性化需求为保护与不保护两种，分别用0，1标记。

2)提取社交网络数据中用户背景属性数据、连接数据及交互数据三个维度的特征数据，并利用公式计算得到特征向量。

由三个维度的特征数据计算出的一对用户i与好友j之间的特征向量

其中，每个维度计算过程具体如下：

的计算公式为：

为

的归一化结果，其中

计算公式为：

式中，ω_i表示用户i关注的好友，ω_j表示好友j关注的好友，

表示关注用户i的粉丝，

表示关注好友j的粉丝，

表示用户i对好友j之间的第t种交互，

表示好友j对用户i之间的第t种交互，

表示用户i对好友k之间的第t种交互，

3)将步骤2)中的特征向量形成的数据经过K-means聚类及BP神经网络计算用户间的关系强度RS。

将步骤2)计算得到的每个特征向量视作样本并形成样本集合，利用K-means算法将所有样本划分成K个类，得到每个类中心向量，同时重新标记每个样本，即对每个样本增加所属类的标签，形成标记后的样本集合，即标记样本集；接着将标记样本集经过BP神经网络训练得到计算模型，输入任意样本，即可得到概率向量；将每个类中心向量每列进行归一化，并对每列求和排序得到类的排序结果，并依此划分[0,1]为K个区间，以每个区间中心值形成关系强度区间向量；最后将概率向量乘以关系强度区间向量计算得到关系强度RS。

4)设计一种满足差分隐私的半径限制地理不可分机制，可以应用于地理位置或轨迹的隐私保护并能保证数据的可用性。

半径限制地理不可分机制是基于已有的地理不可分机制进行公式改进：通过限制半径的最大值以保证数据的可用性，同时依然能保证其满足差分隐私，用于地理位置或轨迹的隐私保护，具体如下：

接着，得到半径限制地理不可分机制的概率密度函数如下：

式中，W_-1是Lambert W函数的-1分支，q是服从[0,1)中均匀分布的随机变量。

5)将用户与好友之间的关系强度与隐私预算进行映射，对待保护轨迹使用半径限制地理不可分机制及位置聚类进行隐私保护，再将保护后轨迹发送给对应的好友，具体如下：

首先，将步骤3)计算出的关系强度RS与隐私预算ε进行映射：

ε＝DM*AD+RS,DM∈{0,1},AD→∞

其中，DM为用户的个性化需求，AD为调节参数；

接着，对待保护轨迹进行隐私保护，具体步骤如下：

本发明可应用于移动社交网络，为用户提供有效的关于轨迹的隐私保护。以下以用户U对好友V的隐私保护对本实施例进一步说明，主要流程如下：

a、用户U分享原始轨迹及个性化需求到移动社交服务器，采用Douglas-Peucker压缩算法，阈值δ设置为100，接着采用相邻点去重的预处理方式得到待保护轨迹Tr＝{l₀,l₁,l₂,...,l_n}，其中个性化需求为0或1，对应保护或不保护；

b、移动社交服务器中设计有关系强度计算模块，用于计算用户U与好友V之间的关系强度，接着将结合图2阐述关系强度计算过程：

b1、提取服务器中所有用户背景属性数据(出生年份，性别，发文数，兴趣爱好)，将其划分成非量化属性(性别，兴趣爱好)和可量化属性(出生年份，发文数)；

对于非量化属性，设用户每个非量化属性为F_i，如果用户i与好友j同一非量化属性相同，两者对应的属性值均计为1，否则其中一方属性值计为1，另一方计为0，如果存在某一方用户属性缺少，则缺失的用户属性值计为0，另一方计为1；那么，用户i非量化属性向量NQA＝{F₀,F₁,F₂,...,F_n},F_i∈{0,1}，则用户i与好友j之间的非量化属性相似度

计算公式为：

式中，NQA_i表示用户i的非量化属性向量，NQA_j表示好友j的非量化属性向量，QA_i表示用户i的量化属性向量，QA_j表示好友j的量化属性向量；

对于量化属性，其每个属性为一个有实际意义的数值，可以通过计算距离的方法来计算用户特征相似度，采用马氏距离(Mahalanobis distance)计算用户量化属性之间的距离；设用户的量化属性向量NQA＝{F₀',F₁',F₂',...,F_n'}，F_i'为实数，计算用户间的量化属性距离如公式：

其中，S^-1为QA_i与QA_j间协方差矩阵的逆，T表示转置，接着通过最大最小值归一化得到标准的量化属性距离

由于距离表示不相似度，所以用户量化属性相似度为

最终属性相似度计算如下：

其中，α₁+α₂＝1，这里α₁＝0.6，α₂＝0.4；

b2、从服务器提取所有用户之间的关注情况，用户关注的其他用户称为好友，关注用户自身的其他用户称为用户的粉丝。设用户的好友集合为ω，粉丝集合为

则用户i与好友j之间直接连接强度计算公式为：

式中，ω_i表示用户i关注的好友，ω_j表示好友j关注的好友，

表示关注用户i的粉丝，

表示关注好友j的粉丝；

考虑到部分用户与好友之间不存在直接关注，但是可通过其他用户间接影响关系，于是将用户之间的互相关注视作一个有向无权社交网络图，其中每个用户表示图中的一个节点，用户之间的互相关注形成一个有向边；因此，为了衡量间接关系，采用Katz中心性来衡量用户i与好友j之间的间接连接强度：

为用户i，好友j处于社交网络图中两者之间的所有长度为l的路径集合，β为衰减系数，这里取0.03，根据三度影响力原则1≤l≤3；最终，连接强度计算公式如下：

其中，γ₁+γ₂＝1，这里γ₁＝0.7，γ₂＝0.3；

b3、从服务器中提取评论，转发，提及(@)每一种交互类型的集合I_t，然后得到交互的总集合I，进而得到交互熵H(I)，计算公式为：

式中，N表示交互类型数，这里N＝3；

计算每种交互类型对应的交互权重w_t，计算公式如下：

用户间的交互是双向的，即用户i对好友j之间的第t种交互定义为I_t ^ij，则定义用户i对好友j的交互加权得分：

最终，交互强度的计算公式为：

式中，m表示用户i的好友数，n表示好友j的好友数，公式考虑了用户i在自己的所有好友中交互加权得分所占的比例及好友j在其自己的所有好友中中交互加权得分所占的比例。

b4、将任意用户i与好友j之间按照b1-b3计算出特征向量

视作样本并形成样本集合D，利用K-means算法将所有样本划分成K个类，每个类中心向量记作

同时重新标记每个样本为

形成标记后的样本集合D^L，其中1≤t≤K，class_t为样本经过聚类后所属的类别；

b5、将b4中标记的样本集D^L利用BP神经网络训练得到预测模型，使用的神经网络输入层神经元个数为3，输出层神经元个数为K(聚类数)，根据经验公式隐藏层神经元个数为：

最后一层使用softmax函数，隐藏层使用ReLU激活函数，利用Adam算法进行优化，学习率设置为0.001；注意，该步骤中神经网络的训练是针对分类问题，但在预测时仅取最后分类结果的前一步，即概率向量；

b6、对b4得到的质心μ_t进行最大最小值归一化，得到标准化质心

并对每个标准化质心向量stdμ_t的每列之和进行排序得到K个聚类中心的相对大小，并将[0,1]划分成K个区间，选择区间的中心值作为对应类的关系强度区间值s_i，对于任意一个样本x_ij(特征向量)输入b5中训练好的预测模型，可得到一个对应的概率向量P^ij＝＜p₁ ^ij,p₂ ^ij,...,p_K ^ij＞，最后将概率向量乘以关系强度区间向量得到关系强度值，计算公式为：

RS_ij＝P^ij·S

其中,S＝＜s₁,s₂,...,s_K＞；

b7、最后，用户U与好友V之间的关系强度可以先根据b1-b3计算出特征向量x_UV，输入b5中预测模型得到概率向量P^UV，最后利用b6中公式计算得到关系强度RS_UV。

c、移动社交服务器中的隐私保护模块对待保护轨迹Tr进行个性化隐私保护；通过限制半径的最大值来提高隐私保护的效用，本发明采用的隐私保护算法为半径限制地理不可分机制，该机制不仅满足差分隐私，同时可用于地理位置或轨迹的隐私保护，具体的：首先，根据轨迹计算出限制的最大半径r_max，公式为：

式中，n为轨迹的位置点个数，l_o表示轨迹的第o个位置点，d(l_o,l_o+1)表示求两个位置点之间的欧几里得距离，ε为隐私预算；接着，得到半径限制的地理不可分机制的概率密度函数如下：

式中，r是原始位置与隐私保护后位置之间的距离，θ是原始位置与隐私保护后位置间连线相对于笛卡尔系统水平轴的角度；那么，为了可以根据原始位置计算隐私保护后的位置，为θ生成[0,2π)内均匀分布的随机数，r计算公式为：

那么对待保护轨迹Tr进行隐私保护的流程如图3所示，具体如下：

S1、根据计算得到的关系强度RS_UV及用户分享的个性化需求DM通过映射公式计算得到ε，公式为：

ε＝DM*AD+RS,DM∈{0,1},AD→∞

注意公式中RS表示关系强度，其表示的是当前需要进行关系强度映射的一对用户与好友之间的关系强度如RS_UV，同时根据上述公式计算出r_max并初始化隐私保护后的轨迹Tr^P；

S2、对于Tr中的第一个位置点l₁则根据上述公式随机生成r与θ，计算隐私保护后的位置点z₁＝l₁+＜rcosθ,rsinθ＞，并添加到Tr^P中；

S3、如果当前位置点l_o与上一个隐私保护后的位置点z_o-1间的距离小于或等于r_max，则当前位置点对应的隐私保护后的位置点z_o＝z_o-1，否则根据随机生成r与θ，计算对应的隐私保护后的位置点z_o＝l_o+＜rcosθ,rsinθ＞，并添加z_o到Tr^P中；

S4、将隐私保护后的轨迹Tr^P发送给对应的好友V。

综上，本发明提出的轨迹隐私保护方法可以基于现有的移动社交网络，增加关系强度计算模块及隐私保护模块，对用户在使用移动社交软件进行分享含有轨迹数据的信息时进行个性化细粒度的隐私保护。特别的，本实施例中需要从移动社交服务器中提取数据，对于一般的移动社交服务器应该存储上述所需所有数据。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.社交网络中基于用户间关系强度的轨迹隐私保护方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的社交网络中基于用户间关系强度的轨迹隐私保护方法，其特征在于：在步骤1)中，要求轨迹为按照时间顺序组成的地理位置点的序列，且地理位置点由经纬度决定；对原始轨迹采用Douglas-Peucker压缩算法及相邻点去重的预处理方式得到待保护轨迹，确保序列长度不少于2，且轨迹即使密集也不能超过规定，其中用户个性化需求为保护与不保护两种，分别用0，1标记。

3.根据权利要求1所述的社交网络中基于用户间关系强度的轨迹隐私保护方法，其特征在于：在步骤2)中，由三个维度的特征数据计算出的一对用户i与好友j之间的特征向量

其中，每个维度计算过程具体如下：

的计算公式为：

为

的归一化结果，其中

计算公式为：

式中，ω_i表示用户i关注的好友，ω_j表示好友j关注的好友，

表示关注用户i的粉丝，

表示关注好友j的粉丝，

表示用户i对好友j之间的第t种交互，

表示好友j对用户i之间的第t种交互，

表示用户i对好友k之间的第t种交互，

4.根据权利要求1所述的社交网络中基于用户间关系强度的轨迹隐私保护方法，其特征在于：在步骤3)中，将步骤2)计算得到的每个特征向量视作样本并形成样本集合，利用K-means算法将所有样本划分成K个类，得到每个类中心向量，同时重新标记每个样本，即对每个样本增加所属类的标签，形成标记后的样本集合，即标记样本集；接着将标记样本集经过BP神经网络训练得到计算模型，输入任意样本，即可得到概率向量；将每个类中心向量每列进行归一化，并对每列求和排序得到类的排序结果，并依此划分[0,1]为K个区间，以每个区间中心值形成关系强度区间向量；最后将概率向量乘以关系强度区间向量计算得到关系强度RS。

5.根据权利要求1所述的社交网络中基于用户间关系强度的轨迹隐私保护方法，其特征在于：在步骤4)中，半径限制地理不可分机制是基于已有的地理不可分机制进行公式改进：通过限制半径的最大值以保证数据的可用性，同时依然能保证其满足差分隐私，用于地理位置或轨迹的隐私保护，具体如下：

接着，得到半径限制地理不可分机制的概率密度函数如下：

ε＝DM*AD+RS,DM∈{0,1},AD→∞

其中，DM为用户的个性化需求，AD为调节参数；

接着，对待保护轨迹进行隐私保护，具体步骤如下：