CN112800458A - 社交网络中基于用户间关系强度的轨迹隐私保护方法 - Google Patents

社交网络中基于用户间关系强度的轨迹隐私保护方法 Download PDF

Info

Publication number
CN112800458A
CN112800458A CN202110101588.XA CN202110101588A CN112800458A CN 112800458 A CN112800458 A CN 112800458A CN 202110101588 A CN202110101588 A CN 202110101588A CN 112800458 A CN112800458 A CN 112800458A
Authority
CN
China
Prior art keywords
track
user
friend
privacy
privacy protection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110101588.XA
Other languages
English (en)
Other versions
CN112800458B (zh
Inventor
李家春
陈郭钱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202110101588.XA priority Critical patent/CN112800458B/zh
Publication of CN112800458A publication Critical patent/CN112800458A/zh
Application granted granted Critical
Publication of CN112800458B publication Critical patent/CN112800458B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Business, Economics & Management (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Bioethics (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Databases & Information Systems (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种社交网络中基于用户间关系强度的轨迹隐私保护方法,包括:1)用户分享原始轨迹及个性化需求,并对轨迹预处理得到待保护轨迹;2)提取社交网络数据中用户背景属性、连接及交互三个维度的特征数据并计算得到特征向量;3)将特征向量形成的数据经过K‑means聚类及BP神经网络计算用户间的关系强度RS;4)设计一种满足差分隐私的半径限制地理不可分机制;5)将用户与好友之间的关系强度与隐私预算进行映射,对待保护轨迹使用半径限制地理不可分机制及位置聚类进行隐私保护,再将保护后轨迹发送给对应的好友。本发明考虑多个维度的关系特征并综合无监督聚类及神经网络方法计算关系强度,同时利用半径限制及位置聚类以提高隐私保护效用。

Description

社交网络中基于用户间关系强度的轨迹隐私保护方法
技术领域
本发明涉及社交网络中轨迹隐私保护的技术领域,尤其是指一种社交网络中基于用户间关系强度的轨迹隐私保护方法。
背景技术
随着移动社交网络的兴起及GPS定位技术的广泛应用,人们经常通过各种运动软件记录并在微博、朋友圈等社交软件中分享自己的轨迹。考虑到社交圈中存在大量弱关系,用户不得不考虑好友攻击带来的轨迹隐私泄露及由此带来的人身财产安全威胁。尽管大部分社交软件可通过设置权限来屏蔽关系强度较弱的好友,但用户与好友之间的关系是动态变化的。因此,更现实的做法是允许不同的朋友查看不同的轨迹信息,并且应根据关系强度的变化动态调整策略和权限。
根据已有研究,用户关系强度挖掘模型主要分为图模型、相似度模型和概率模型三类,很少有从多个维度考虑用户间关系强度的影响因素并同时利用无监督聚类加有监督神经网络模型进行关系强度的计算。轨迹隐私保护的研究主要包括假数据法,泛化法,抑制法和差分隐私模型。虽然差分隐私模型现在被认为是最好的可以不考虑对手背景知识的一种满足严格数学定义的隐私保护方法,但其存在数据可用性较差的问题。而且现有的隐私保护方法不能根据用户需求进行个性化、细粒度的隐私保护。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出了一种社交网络中基于用户间关系强度的轨迹隐私保护方法,从多维度及利用无监督聚类加神经网络方法计算得到关系强度,并根据用户的个性化需求及关系强度对轨迹进行细粒度的隐私保护。
为实现上述目的,本发明所提供的技术方案为:社交网络中基于用户间关系强度的轨迹隐私保护方法,包括以下步骤:
1)用户分享原始轨迹及用户的个性化需求,并对轨迹预处理得到待保护轨迹;
2)提取社交网络数据中用户背景属性数据、连接数据及交互数据三个维度的特征数据,并利用公式计算得到特征向量;
3)将步骤2)中的特征向量形成的数据经过K-means聚类及BP神经网络计算用户间的关系强度RS;
4)设计一种满足差分隐私的半径限制地理不可分机制,应用于地理位置或轨迹的隐私保护并能保证数据的可用性;
5)将用户与好友之间的关系强度与隐私预算进行映射,对待保护轨迹使用半径限制地理不可分机制及位置聚类进行隐私保护,再将保护后轨迹发送给对应的好友。
在步骤1)中,要求轨迹为按照时间顺序组成的地理位置点的序列,且地理位置点由经纬度决定;对原始轨迹采用Douglas-Peucker压缩算法及相邻点去重的预处理方式得到待保护轨迹,确保序列长度不少于2,且轨迹即使密集也不能超过规定,其中用户个性化需求为保护与不保护两种,分别用0,1标记。
在步骤2)中,由三个维度的特征数据计算出的一对用户i与好友j之间的特征向量
Figure BDA0002915906770000021
其中,每个维度计算过程具体如下:
a、对于由出生年份、性别、发文数、兴趣爱好形成的背景属性数据计算得到的属性相似度
Figure BDA0002915906770000022
的计算公式为:
Figure BDA0002915906770000031
Figure BDA0002915906770000032
Figure BDA0002915906770000033
的归一化结果,其中
Figure BDA0002915906770000034
计算公式为:
Figure BDA0002915906770000035
式中,NQAi表示用户i的非量化属性向量,NQAj表示好友j的非量化属性向量,性别、兴趣爱好为非量化属性,每个属性值取0,1中一个;QAi表示用户i的量化属性向量,QAj表示好友j的量化属性向量,出生年份、发文数为量化属性,每个属性值为其本身实际值,S-1为QAi与QAj间协方差矩阵的逆,T表示转置,α1与α2为权重,且α12=1;
b、对于由用户之间的互相关注形成的连接数据计算得到的连接强度lsij的计算公式为:
Figure BDA0002915906770000036
式中,ωi表示用户i关注的好友,ωj表示好友j关注的好友,
Figure BDA0002915906770000037
表示关注用户i的粉丝,
Figure BDA0002915906770000038
表示关注好友j的粉丝,
Figure BDA0002915906770000039
为用户i、好友j处于社交网络图中两者之间的所有长度为l的路径集合,β为衰减系数,γ1与γ2为权重,且γ12=1;
c、对于由评论、转发、涉及@形成的交互数据计算得到的交互强度isij计算公式为:
Figure BDA00029159067700000310
式中,m表示用户i的好友数,n表示好友j的好友数,WSij为用户i对好友j的交互加权得分,WSji表示好友j对用户i的交互加权得分,WSik表示用户i对好友k的交互加权得分,WSjk表示好友j对其好友k的交互加权得分,计算公式为:
Figure BDA0002915906770000041
Figure BDA0002915906770000042
Figure BDA0002915906770000043
Figure BDA0002915906770000044
其中,N表示交互类型的数量,I表示所有交互的集合,It表示第t种交互的集合,
Figure BDA0002915906770000045
表示用户i对好友j之间的第t种交互,
Figure BDA0002915906770000046
表示好友j对用户i之间的第t种交互,
Figure BDA0002915906770000047
表示用户i对好友k之间的第t种交互,
Figure BDA0002915906770000048
表示好友j对好友k之间的第t种交互,H(I)为交互熵,计算公式为:
Figure BDA0002915906770000049
在步骤3)中,将步骤2)计算得到的每个特征向量视作样本并形成样本集合,利用K-means算法将所有样本划分成K个类,得到每个类中心向量,同时重新标记每个样本,即对每个样本增加所属类的标签,形成标记后的样本集合,即标记样本集;接着将标记样本集经过BP神经网络训练得到计算模型,输入任意样本,即可得到概率向量;将每个类中心向量每列进行归一化,并对每列求和排序得到类的排序结果,并依此划分[0,1]为K个区间,以每个区间中心值形成关系强度区间向量;最后将概率向量乘以关系强度区间向量计算得到关系强度RS。
在步骤4)中,半径限制地理不可分机制是基于已有的地理不可分机制进行公式改进:通过限制半径的最大值以保证数据的可用性,同时依然能保证其满足差分隐私,用于地理位置或轨迹的隐私保护,具体如下:
首先,根据待保护轨迹计算出限制的最大半径rmax,公式为:
Figure BDA0002915906770000051
式中,n为轨迹的位置点个数,lo表示轨迹的第o个位置点,d(lo,lo+1)表示求两个位置点之间的欧几里得距离,ε为隐私预算;
接着,得到半径限制地理不可分机制的概率密度函数如下:
Figure BDA0002915906770000052
式中,r是原始位置点与隐私保护后位置点之间的距离,θ是原始位置点与隐私保护后位置点间连线相对于笛卡尔系统水平轴的角度;
为了能够根据原始位置点计算隐私保护后的位置点,为θ生成[0,2π)内均匀分布的随机数,r计算公式为:
Figure BDA0002915906770000053
式中,W-1是Lambert W函数的-1分支,q是服从[0,1)中均匀分布的随机变量;
在步骤5)中,首先,将步骤3)计算出的关系强度RS与隐私预算ε进行映射:
ε=DM*AD+RS,DM∈{0,1},AD→∞
其中,DM为用户的个性化需求,AD为调节参数;
接着,对待保护轨迹进行隐私保护,具体步骤如下:
5.1)对于待保护轨迹中的第一个位置点l1则根据随机生成r与θ,计算对应的隐私保护后的位置点z1=l1+<rcosθ,rsinθ>;
5.2)顺序遍历原始轨迹中的剩余每个位置点lo,利用位置聚类的方法:如果当前位置点lo与上一个隐私保护后的位置点zo-1间的距离小于或等于rmax,则当前位置点对应的隐私保护后的位置点zo=zo-1,否则根据随机生成r与θ,计算对应的隐私保护后的位置点zo=lo+<rcosθ,rsinθ>;
5.3)将步骤5.1)、5.2)中的隐私保护后的位置点按序形成保护后的轨迹,最后,将隐私保护后的轨迹发送给对应的好友。
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明从多个维度考虑用户关系强度的计算,提出一种综合无监督聚类及神经网络的关系强度计算方法,能够有效的体现关系强度的双向性及合理性。
2、本发明提出一种半径限制地理不可分机制用于轨迹隐私保护,不仅能很好保护隐私同时还可以提高隐私保护后数据的效用。
3、本发明考虑到用户的个性化需求,根据用户的个性化需求及与好友之间的关系强度对轨迹进行细粒度的隐私保护。
4、本发明的隐私保护方法不仅利用提出的半径限制地理不可分机制,还使用位置聚类方法,可以有效减少数据量,提高算法执行效率。
附图说明
图1为本发明方法的整体逻辑流程图。
图2为本发明的关系强度计算模型图。
图3为对待保护轨迹进行隐私保护的流程图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
如图1所示,本实施例公开了一种社交网络中基于用户间关系强度的轨迹隐私保护方法,包括以下步骤:
1)用户分享原始轨迹及用户的个性化需求,并对轨迹预处理得到待保护轨迹;要求轨迹为按照时间顺序组成的地理位置点的序列,且地理位置点由经纬度决定;对原始轨迹采用Douglas-Peucker压缩算法及相邻点去重的预处理方式得到待保护轨迹,确保序列长度不少于2,且轨迹不过分密集,其中用户个性化需求为保护与不保护两种,分别用0,1标记。
2)提取社交网络数据中用户背景属性数据、连接数据及交互数据三个维度的特征数据,并利用公式计算得到特征向量。
由三个维度的特征数据计算出的一对用户i与好友j之间的特征向量
Figure BDA0002915906770000071
其中,每个维度计算过程具体如下:
a、对于由出生年份、性别、发文数、兴趣爱好形成的背景属性数据计算得到的属性相似度
Figure BDA0002915906770000072
的计算公式为:
Figure BDA0002915906770000073
Figure BDA0002915906770000074
Figure BDA0002915906770000075
的归一化结果,其中
Figure BDA0002915906770000076
计算公式为:
Figure BDA0002915906770000077
式中,NQAi表示用户i的非量化属性向量,NQAj表示好友j的非量化属性向量,性别、兴趣爱好为非量化属性,每个属性值取0,1中一个;QAi表示用户i的量化属性向量,QAj表示好友j的量化属性向量,出生年份、发文数为量化属性,每个属性值为其本身实际值,S-1为QAi与QAj间协方差矩阵的逆,T表示转置,α1与α2为权重,且α12=1;
b、对于由用户之间的互相关注形成的连接数据计算得到的连接强度lsij的计算公式为:
Figure BDA0002915906770000081
式中,ωi表示用户i关注的好友,ωj表示好友j关注的好友,
Figure BDA0002915906770000082
表示关注用户i的粉丝,
Figure BDA0002915906770000083
表示关注好友j的粉丝,
Figure BDA0002915906770000084
为用户i、好友j处于社交网络图中两者之间的所有长度为l的路径集合,β为衰减系数,γ1与γ2为权重,且γ12=1;
c、对于由评论、转发、涉及@形成的交互数据计算得到的交互强度isij计算公式为:
Figure BDA0002915906770000085
式中,m表示用户i的好友数,n表示好友j的好友数,WSij为用户i对好友j的交互加权得分,WSji表示好友j对用户i的交互加权得分,WSik表示用户i对好友k的交互加权得分,WSjk表示好友j对其好友k的交互加权得分,计算公式为:
Figure BDA0002915906770000091
Figure BDA0002915906770000092
Figure BDA0002915906770000093
Figure BDA0002915906770000094
其中,N表示交互类型的数量,I表示所有交互的集合,It表示第t种交互的集合,
Figure BDA0002915906770000095
表示用户i对好友j之间的第t种交互,
Figure BDA0002915906770000096
表示好友j对用户i之间的第t种交互,
Figure BDA0002915906770000097
表示用户i对好友k之间的第t种交互,
Figure BDA0002915906770000098
表示好友j对好友k之间的第t种交互,H(I)为交互熵,计算公式为:
Figure BDA0002915906770000099
3)将步骤2)中的特征向量形成的数据经过K-means聚类及BP神经网络计算用户间的关系强度RS。
将步骤2)计算得到的每个特征向量视作样本并形成样本集合,利用K-means算法将所有样本划分成K个类,得到每个类中心向量,同时重新标记每个样本,即对每个样本增加所属类的标签,形成标记后的样本集合,即标记样本集;接着将标记样本集经过BP神经网络训练得到计算模型,输入任意样本,即可得到概率向量;将每个类中心向量每列进行归一化,并对每列求和排序得到类的排序结果,并依此划分[0,1]为K个区间,以每个区间中心值形成关系强度区间向量;最后将概率向量乘以关系强度区间向量计算得到关系强度RS。
4)设计一种满足差分隐私的半径限制地理不可分机制,可以应用于地理位置或轨迹的隐私保护并能保证数据的可用性。
半径限制地理不可分机制是基于已有的地理不可分机制进行公式改进:通过限制半径的最大值以保证数据的可用性,同时依然能保证其满足差分隐私,用于地理位置或轨迹的隐私保护,具体如下:
首先,根据待保护轨迹计算出限制的最大半径rmax,公式为:
Figure BDA0002915906770000101
式中,n为轨迹的位置点个数,lo表示轨迹的第o个位置点,d(lo,lo+1)表示求两个位置点之间的欧几里得距离,ε为隐私预算;
接着,得到半径限制地理不可分机制的概率密度函数如下:
Figure BDA0002915906770000102
式中,r是原始位置点与隐私保护后位置点之间的距离,θ是原始位置点与隐私保护后位置点间连线相对于笛卡尔系统水平轴的角度;
为了能够根据原始位置点计算隐私保护后的位置点,为θ生成[0,2π)内均匀分布的随机数,r计算公式为:
Figure BDA0002915906770000103
式中,W-1是Lambert W函数的-1分支,q是服从[0,1)中均匀分布的随机变量。
5)将用户与好友之间的关系强度与隐私预算进行映射,对待保护轨迹使用半径限制地理不可分机制及位置聚类进行隐私保护,再将保护后轨迹发送给对应的好友,具体如下:
首先,将步骤3)计算出的关系强度RS与隐私预算ε进行映射:
ε=DM*AD+RS,DM∈{0,1},AD→∞
其中,DM为用户的个性化需求,AD为调节参数;
接着,对待保护轨迹进行隐私保护,具体步骤如下:
5.1)对于待保护轨迹中的第一个位置点l1则根据随机生成r与θ,计算对应的隐私保护后的位置点z1=l1+<rcosθ,rsinθ>;
5.2)顺序遍历原始轨迹中的剩余每个位置点lo,利用位置聚类的方法:如果当前位置点lo与上一个隐私保护后的位置点zo-1间的距离小于或等于rmax,则当前位置点对应的隐私保护后的位置点zo=zo-1,否则根据随机生成r与θ,计算对应的隐私保护后的位置点zo=lo+<rcosθ,rsinθ>;
5.3)将步骤5.1)、5.2)中的隐私保护后的位置点按序形成保护后的轨迹,最后,将隐私保护后的轨迹发送给对应的好友。
本发明可应用于移动社交网络,为用户提供有效的关于轨迹的隐私保护。以下以用户U对好友V的隐私保护对本实施例进一步说明,主要流程如下:
a、用户U分享原始轨迹及个性化需求到移动社交服务器,采用Douglas-Peucker压缩算法,阈值δ设置为100,接着采用相邻点去重的预处理方式得到待保护轨迹Tr={l0,l1,l2,...,ln},其中个性化需求为0或1,对应保护或不保护;
b、移动社交服务器中设计有关系强度计算模块,用于计算用户U与好友V之间的关系强度,接着将结合图2阐述关系强度计算过程:
b1、提取服务器中所有用户背景属性数据(出生年份,性别,发文数,兴趣爱好),将其划分成非量化属性(性别,兴趣爱好)和可量化属性(出生年份,发文数);
对于非量化属性,设用户每个非量化属性为Fi,如果用户i与好友j同一非量化属性相同,两者对应的属性值均计为1,否则其中一方属性值计为1,另一方计为0,如果存在某一方用户属性缺少,则缺失的用户属性值计为0,另一方计为1;那么,用户i非量化属性向量NQA={F0,F1,F2,...,Fn},Fi∈{0,1},则用户i与好友j之间的非量化属性相似度
Figure BDA0002915906770000121
计算公式为:
Figure BDA0002915906770000122
式中,NQAi表示用户i的非量化属性向量,NQAj表示好友j的非量化属性向量,QAi表示用户i的量化属性向量,QAj表示好友j的量化属性向量;
对于量化属性,其每个属性为一个有实际意义的数值,可以通过计算距离的方法来计算用户特征相似度,采用马氏距离(Mahalanobis distance)计算用户量化属性之间的距离;设用户的量化属性向量NQA={F0',F1',F2',...,Fn'},Fi'为实数,计算用户间的量化属性距离如公式:
Figure BDA0002915906770000123
其中,S-1为QAi与QAj间协方差矩阵的逆,T表示转置,接着通过最大最小值归一化得到标准的量化属性距离
Figure BDA0002915906770000124
由于距离表示不相似度,所以用户量化属性相似度为
Figure BDA0002915906770000125
最终属性相似度计算如下:
Figure BDA0002915906770000126
其中,α12=1,这里α1=0.6,α2=0.4;
b2、从服务器提取所有用户之间的关注情况,用户关注的其他用户称为好友,关注用户自身的其他用户称为用户的粉丝。设用户的好友集合为ω,粉丝集合为
Figure BDA0002915906770000131
则用户i与好友j之间直接连接强度计算公式为:
Figure BDA0002915906770000132
式中,ωi表示用户i关注的好友,ωj表示好友j关注的好友,
Figure BDA0002915906770000133
表示关注用户i的粉丝,
Figure BDA0002915906770000134
表示关注好友j的粉丝;
考虑到部分用户与好友之间不存在直接关注,但是可通过其他用户间接影响关系,于是将用户之间的互相关注视作一个有向无权社交网络图,其中每个用户表示图中的一个节点,用户之间的互相关注形成一个有向边;因此,为了衡量间接关系,采用Katz中心性来衡量用户i与好友j之间的间接连接强度:
Figure BDA0002915906770000135
Figure BDA0002915906770000136
为用户i,好友j处于社交网络图中两者之间的所有长度为l的路径集合,β为衰减系数,这里取0.03,根据三度影响力原则1≤l≤3;最终,连接强度计算公式如下:
Figure BDA0002915906770000137
其中,γ12=1,这里γ1=0.7,γ2=0.3;
b3、从服务器中提取评论,转发,提及(@)每一种交互类型的集合It,然后得到交互的总集合I,进而得到交互熵H(I),计算公式为:
Figure BDA0002915906770000138
式中,N表示交互类型数,这里N=3;
计算每种交互类型对应的交互权重wt,计算公式如下:
Figure BDA0002915906770000141
用户间的交互是双向的,即用户i对好友j之间的第t种交互定义为It ij,则定义用户i对好友j的交互加权得分:
Figure BDA0002915906770000142
最终,交互强度的计算公式为:
Figure BDA0002915906770000143
式中,m表示用户i的好友数,n表示好友j的好友数,公式考虑了用户i在自己的所有好友中交互加权得分所占的比例及好友j在其自己的所有好友中中交互加权得分所占的比例。
b4、将任意用户i与好友j之间按照b1-b3计算出特征向量
Figure BDA0002915906770000144
视作样本并形成样本集合D,利用K-means算法将所有样本划分成K个类,每个类中心向量记作
Figure BDA0002915906770000145
同时重新标记每个样本为
Figure BDA0002915906770000146
形成标记后的样本集合DL,其中1≤t≤K,classt为样本经过聚类后所属的类别;
b5、将b4中标记的样本集DL利用BP神经网络训练得到预测模型,使用的神经网络输入层神经元个数为3,输出层神经元个数为K(聚类数),根据经验公式隐藏层神经元个数为:
Figure BDA0002915906770000147
最后一层使用softmax函数,隐藏层使用ReLU激活函数,利用Adam算法进行优化,学习率设置为0.001;注意,该步骤中神经网络的训练是针对分类问题,但在预测时仅取最后分类结果的前一步,即概率向量;
b6、对b4得到的质心μt进行最大最小值归一化,得到标准化质心
Figure BDA0002915906770000151
并对每个标准化质心向量stdμt的每列之和进行排序得到K个聚类中心的相对大小,并将[0,1]划分成K个区间,选择区间的中心值作为对应类的关系强度区间值si,对于任意一个样本xij(特征向量)输入b5中训练好的预测模型,可得到一个对应的概率向量Pij=<p1 ij,p2 ij,...,pK ij>,最后将概率向量乘以关系强度区间向量得到关系强度值,计算公式为:
RSij=Pij·S
其中,S=<s1,s2,...,sK>;
b7、最后,用户U与好友V之间的关系强度可以先根据b1-b3计算出特征向量xUV,输入b5中预测模型得到概率向量PUV,最后利用b6中公式计算得到关系强度RSUV
c、移动社交服务器中的隐私保护模块对待保护轨迹Tr进行个性化隐私保护;通过限制半径的最大值来提高隐私保护的效用,本发明采用的隐私保护算法为半径限制地理不可分机制,该机制不仅满足差分隐私,同时可用于地理位置或轨迹的隐私保护,具体的:首先,根据轨迹计算出限制的最大半径rmax,公式为:
Figure BDA0002915906770000152
式中,n为轨迹的位置点个数,lo表示轨迹的第o个位置点,d(lo,lo+1)表示求两个位置点之间的欧几里得距离,ε为隐私预算;接着,得到半径限制的地理不可分机制的概率密度函数如下:
Figure BDA0002915906770000153
式中,r是原始位置与隐私保护后位置之间的距离,θ是原始位置与隐私保护后位置间连线相对于笛卡尔系统水平轴的角度;那么,为了可以根据原始位置计算隐私保护后的位置,为θ生成[0,2π)内均匀分布的随机数,r计算公式为:
Figure BDA0002915906770000161
式中,W-1是Lambert W函数的-1分支,q是服从[0,1)中均匀分布的随机变量;
那么对待保护轨迹Tr进行隐私保护的流程如图3所示,具体如下:
S1、根据计算得到的关系强度RSUV及用户分享的个性化需求DM通过映射公式计算得到ε,公式为:
ε=DM*AD+RS,DM∈{0,1},AD→∞
注意公式中RS表示关系强度,其表示的是当前需要进行关系强度映射的一对用户与好友之间的关系强度如RSUV,同时根据上述公式计算出rmax并初始化隐私保护后的轨迹TrP
S2、对于Tr中的第一个位置点l1则根据上述公式随机生成r与θ,计算隐私保护后的位置点z1=l1+<rcosθ,rsinθ>,并添加到TrP中;
S3、如果当前位置点lo与上一个隐私保护后的位置点zo-1间的距离小于或等于rmax,则当前位置点对应的隐私保护后的位置点zo=zo-1,否则根据随机生成r与θ,计算对应的隐私保护后的位置点zo=lo+<rcosθ,rsinθ>,并添加zo到TrP中;
S4、将隐私保护后的轨迹TrP发送给对应的好友V。
综上,本发明提出的轨迹隐私保护方法可以基于现有的移动社交网络,增加关系强度计算模块及隐私保护模块,对用户在使用移动社交软件进行分享含有轨迹数据的信息时进行个性化细粒度的隐私保护。特别的,本实施例中需要从移动社交服务器中提取数据,对于一般的移动社交服务器应该存储上述所需所有数据。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (5)

1.社交网络中基于用户间关系强度的轨迹隐私保护方法,其特征在于,包括以下步骤:
1)用户分享原始轨迹及用户的个性化需求,并对轨迹预处理得到待保护轨迹;
2)提取社交网络数据中用户背景属性数据、连接数据及交互数据三个维度的特征数据,并利用公式计算得到特征向量;
3)将步骤2)中的特征向量形成的数据经过K-means聚类及BP神经网络计算用户间的关系强度RS;
4)设计一种满足差分隐私的半径限制地理不可分机制,应用于地理位置或轨迹的隐私保护并能保证数据的可用性;
5)将用户与好友之间的关系强度与隐私预算进行映射,对待保护轨迹使用半径限制地理不可分机制及位置聚类进行隐私保护,再将保护后轨迹发送给对应的好友。
2.根据权利要求1所述的社交网络中基于用户间关系强度的轨迹隐私保护方法,其特征在于:在步骤1)中,要求轨迹为按照时间顺序组成的地理位置点的序列,且地理位置点由经纬度决定;对原始轨迹采用Douglas-Peucker压缩算法及相邻点去重的预处理方式得到待保护轨迹,确保序列长度不少于2,且轨迹即使密集也不能超过规定,其中用户个性化需求为保护与不保护两种,分别用0,1标记。
3.根据权利要求1所述的社交网络中基于用户间关系强度的轨迹隐私保护方法,其特征在于:在步骤2)中,由三个维度的特征数据计算出的一对用户i与好友j之间的特征向量
Figure FDA0002915906760000011
其中,每个维度计算过程具体如下:
a、对于由出生年份、性别、发文数、兴趣爱好形成的背景属性数据计算得到的属性相似度
Figure FDA0002915906760000021
的计算公式为:
Figure FDA0002915906760000022
Figure FDA0002915906760000023
Figure FDA0002915906760000024
的归一化结果,其中
Figure FDA0002915906760000025
计算公式为:
Figure FDA0002915906760000026
式中,NQAi表示用户i的非量化属性向量,NQAj表示好友j的非量化属性向量,性别、兴趣爱好为非量化属性,每个属性值取0,1中一个;QAi表示用户i的量化属性向量,QAj表示好友j的量化属性向量,出生年份、发文数为量化属性,每个属性值为其本身实际值,S-1为QAi与QAj间协方差矩阵的逆,T表示转置,α1与α2为权重,且α12=1;
b、对于由用户之间的互相关注形成的连接数据计算得到的连接强度lsij的计算公式为:
Figure FDA0002915906760000027
式中,ωi表示用户i关注的好友,ωj表示好友j关注的好友,
Figure FDA0002915906760000028
表示关注用户i的粉丝,
Figure FDA0002915906760000029
表示关注好友j的粉丝,
Figure FDA00029159067600000210
为用户i、好友j处于社交网络图中两者之间的所有长度为l的路径集合,β为衰减系数,γ1与γ2为权重,且γ12=1;
c、对于由评论、转发、涉及@形成的交互数据计算得到的交互强度isij计算公式为:
Figure FDA00029159067600000211
式中,m表示用户i的好友数,n表示好友j的好友数,WSij为用户i对好友j的交互加权得分,WSji表示好友j对用户i的交互加权得分,WSik表示用户i对好友k的交互加权得分,WSjk表示好友j对其好友k的交互加权得分,计算公式为:
Figure FDA0002915906760000031
Figure FDA0002915906760000032
Figure FDA0002915906760000033
Figure FDA0002915906760000034
其中,N表示交互类型的数量,I表示所有交互的集合,It表示第t种交互的集合,
Figure FDA0002915906760000035
表示用户i对好友j之间的第t种交互,
Figure FDA0002915906760000036
表示好友j对用户i之间的第t种交互,
Figure FDA0002915906760000037
表示用户i对好友k之间的第t种交互,
Figure FDA0002915906760000038
表示好友j对好友k之间的第t种交互,H(I)为交互熵,计算公式为:
Figure FDA0002915906760000039
4.根据权利要求1所述的社交网络中基于用户间关系强度的轨迹隐私保护方法,其特征在于:在步骤3)中,将步骤2)计算得到的每个特征向量视作样本并形成样本集合,利用K-means算法将所有样本划分成K个类,得到每个类中心向量,同时重新标记每个样本,即对每个样本增加所属类的标签,形成标记后的样本集合,即标记样本集;接着将标记样本集经过BP神经网络训练得到计算模型,输入任意样本,即可得到概率向量;将每个类中心向量每列进行归一化,并对每列求和排序得到类的排序结果,并依此划分[0,1]为K个区间,以每个区间中心值形成关系强度区间向量;最后将概率向量乘以关系强度区间向量计算得到关系强度RS。
5.根据权利要求1所述的社交网络中基于用户间关系强度的轨迹隐私保护方法,其特征在于:在步骤4)中,半径限制地理不可分机制是基于已有的地理不可分机制进行公式改进:通过限制半径的最大值以保证数据的可用性,同时依然能保证其满足差分隐私,用于地理位置或轨迹的隐私保护,具体如下:
首先,根据待保护轨迹计算出限制的最大半径rmax,公式为:
Figure FDA0002915906760000041
式中,n为轨迹的位置点个数,lo表示轨迹的第o个位置点,d(lo,lo+1)表示求两个位置点之间的欧几里得距离,ε为隐私预算;
接着,得到半径限制地理不可分机制的概率密度函数如下:
Figure FDA0002915906760000042
式中,r是原始位置点与隐私保护后位置点之间的距离,θ是原始位置点与隐私保护后位置点间连线相对于笛卡尔系统水平轴的角度;
为了能够根据原始位置点计算隐私保护后的位置点,为θ生成[0,2π)内均匀分布的随机数,r计算公式为:
Figure FDA0002915906760000051
式中,W-1是Lambert W函数的-1分支,q是服从[0,1)中均匀分布的随机变量;
在步骤5)中,首先,将步骤3)计算出的关系强度RS与隐私预算ε进行映射:
ε=DM*AD+RS,DM∈{0,1},AD→∞
其中,DM为用户的个性化需求,AD为调节参数;
接着,对待保护轨迹进行隐私保护,具体步骤如下:
5.1)对于待保护轨迹中的第一个位置点l1则根据随机生成r与θ,计算对应的隐私保护后的位置点z1=l1+<rcosθ,rsinθ>;
5.2)顺序遍历原始轨迹中的剩余每个位置点lo,利用位置聚类的方法:如果当前位置点lo与上一个隐私保护后的位置点zo-1间的距离小于或等于rmax,则当前位置点对应的隐私保护后的位置点zo=zo-1,否则根据随机生成r与θ,计算对应的隐私保护后的位置点zo=lo+<rcosθ,rsinθ>;
5.3)将步骤5.1)、5.2)中的隐私保护后的位置点按序形成保护后的轨迹,最后,将隐私保护后的轨迹发送给对应的好友。
CN202110101588.XA 2021-01-26 2021-01-26 社交网络中基于用户间关系强度的轨迹隐私保护方法 Active CN112800458B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110101588.XA CN112800458B (zh) 2021-01-26 2021-01-26 社交网络中基于用户间关系强度的轨迹隐私保护方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110101588.XA CN112800458B (zh) 2021-01-26 2021-01-26 社交网络中基于用户间关系强度的轨迹隐私保护方法

Publications (2)

Publication Number Publication Date
CN112800458A true CN112800458A (zh) 2021-05-14
CN112800458B CN112800458B (zh) 2022-06-14

Family

ID=75811734

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110101588.XA Active CN112800458B (zh) 2021-01-26 2021-01-26 社交网络中基于用户间关系强度的轨迹隐私保护方法

Country Status (1)

Country Link
CN (1) CN112800458B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113254999A (zh) * 2021-06-04 2021-08-13 郑州轻工业大学 一种基于差分隐私的用户社区挖掘方法及系统
CN115878906A (zh) * 2022-12-13 2023-03-31 重庆大学 一种保护个人相似度的社交图生成方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106899700A (zh) * 2017-04-27 2017-06-27 电子科技大学 一种移动社交网络中的位置共享系统的隐私保护方法
CN108632139A (zh) * 2018-03-30 2018-10-09 华南理工大学 基于协同定位信息的位置隐私保护方法及系统
CN109284449A (zh) * 2018-10-23 2019-01-29 厦门大学 兴趣点的推荐方法和装置
CN109840714A (zh) * 2019-02-19 2019-06-04 浙江师范大学 地理不可区分保护下的基于数据质量的签到激励机制方法
CN110516476A (zh) * 2019-08-31 2019-11-29 贵州大学 基于频繁位置分类的地理不可区分性位置隐私保护方法
CN110727959A (zh) * 2019-10-15 2020-01-24 南京航空航天大学 一种基于聚类的差分隐私轨迹数据保护方法
CN111447181A (zh) * 2020-03-04 2020-07-24 重庆邮电大学 一种基于差分隐私的位置隐私保护方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106899700A (zh) * 2017-04-27 2017-06-27 电子科技大学 一种移动社交网络中的位置共享系统的隐私保护方法
CN108632139A (zh) * 2018-03-30 2018-10-09 华南理工大学 基于协同定位信息的位置隐私保护方法及系统
CN109284449A (zh) * 2018-10-23 2019-01-29 厦门大学 兴趣点的推荐方法和装置
CN109840714A (zh) * 2019-02-19 2019-06-04 浙江师范大学 地理不可区分保护下的基于数据质量的签到激励机制方法
CN110516476A (zh) * 2019-08-31 2019-11-29 贵州大学 基于频繁位置分类的地理不可区分性位置隐私保护方法
CN110727959A (zh) * 2019-10-15 2020-01-24 南京航空航天大学 一种基于聚类的差分隐私轨迹数据保护方法
CN111447181A (zh) * 2020-03-04 2020-07-24 重庆邮电大学 一种基于差分隐私的位置隐私保护方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113254999A (zh) * 2021-06-04 2021-08-13 郑州轻工业大学 一种基于差分隐私的用户社区挖掘方法及系统
CN115878906A (zh) * 2022-12-13 2023-03-31 重庆大学 一种保护个人相似度的社交图生成方法及系统
CN115878906B (zh) * 2022-12-13 2023-10-10 重庆大学 一种保护个人相似度的社交图生成方法及系统

Also Published As

Publication number Publication date
CN112800458B (zh) 2022-06-14

Similar Documents

Publication Publication Date Title
Rao et al. LSTM-TrajGAN: A deep learning approach to trajectory privacy protection
Heidari et al. Deep contextualized word embedding for text-based online user profiling to detect social bots on twitter
Zhang et al. A security-and privacy-preserving approach based on data disturbance for collaborative edge computing in social IoT systems
CN112800458B (zh) 社交网络中基于用户间关系强度的轨迹隐私保护方法
Hsu et al. Using long-short-term memory based convolutional neural networks for network intrusion detection
Yin et al. GANs Based Density Distribution Privacy‐Preservation on Mobility Data
Tu et al. Influence of individual values on attitudes toward corruption: What undermine formal anticorruption effectiveness
Hildebrandt New animism in policing: re-animating the rule of law
Sah et al. Forecasting COVID‐19 Pandemic Using Prophet, ARIMA, and Hybrid Stacked LSTM‐GRU Models in India
Lokanan et al. Predicting fraud victimization using classical machine learning
Nissan An overview of data mining for combating crime
Mesiarová-Zemánková et al. Bonferroni mean with weighted interaction
Choi et al. Private attribute inference from Facebook’s public text metadata: a case study of Korean users
Liu et al. A new bitcoin address association method using a two-level learner model
CN114912142A (zh) 一种数据脱敏方法、装置、电子设备及存储介质
Yan et al. Perturb and optimize users’ location privacy using geo-indistinguishability and location semantics
Dong et al. A Novel Noncooperative Behavior Management Method for Multiattribute Large Group Decision‐Making
Toapanta et al. Parameters to Determine Cyberbullying in Social Networks in the Ecuador
Guo et al. Visualization research of college students’ career planning paths integrating deep learning and big data
Liu et al. Secure data publishing of private trajectory in edge computing of iot
Sagar et al. Covid-19 transmission risks assessment using agent-based weighted clustering approach
Arabnia et al. Advances in Artificial Intelligence and Applied Cognitive Computing
Bej et al. Time-Series prediction for the epidemic trends of COVID-19 using Conditional Generative adversarial Networks Regression on country-wise case studies
Wei et al. CPERS: Contextual and personalized event recommender system
Zhao et al. Unveiling the Role of Message Passing in Dual-Privacy Preservation on GNNs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant