CN112800458A - 社交网络中基于用户间关系强度的轨迹隐私保护方法 - Google Patents
社交网络中基于用户间关系强度的轨迹隐私保护方法 Download PDFInfo
- Publication number
- CN112800458A CN112800458A CN202110101588.XA CN202110101588A CN112800458A CN 112800458 A CN112800458 A CN 112800458A CN 202110101588 A CN202110101588 A CN 202110101588A CN 112800458 A CN112800458 A CN 112800458A
- Authority
- CN
- China
- Prior art keywords
- track
- user
- friend
- privacy
- privacy protection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 239000013598 vector Substances 0.000 claims abstract description 60
- 230000003993 interaction Effects 0.000 claims abstract description 55
- 230000007246 mechanism Effects 0.000 claims abstract description 25
- 238000013528 artificial neural network Methods 0.000 claims abstract description 13
- 238000003064 k means clustering Methods 0.000 claims abstract description 4
- 238000004364 calculation method Methods 0.000 claims description 44
- 230000006870 function Effects 0.000 claims description 10
- 238000013139 quantization Methods 0.000 claims description 10
- 238000010586 diagram Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 5
- 230000006835 compression Effects 0.000 claims description 4
- 238000007906 compression Methods 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 230000017105 transposition Effects 0.000 claims description 4
- 230000006872 improvement Effects 0.000 claims description 3
- 239000000843 powder Substances 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract 1
- 230000002452 interceptive effect Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 235000010627 Phaseolus vulgaris Nutrition 0.000 description 1
- 244000046052 Phaseolus vulgaris Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Business, Economics & Management (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Bioethics (AREA)
- Biomedical Technology (AREA)
- Medical Informatics (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Databases & Information Systems (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种社交网络中基于用户间关系强度的轨迹隐私保护方法,包括:1)用户分享原始轨迹及个性化需求,并对轨迹预处理得到待保护轨迹;2)提取社交网络数据中用户背景属性、连接及交互三个维度的特征数据并计算得到特征向量;3)将特征向量形成的数据经过K‑means聚类及BP神经网络计算用户间的关系强度RS;4)设计一种满足差分隐私的半径限制地理不可分机制;5)将用户与好友之间的关系强度与隐私预算进行映射,对待保护轨迹使用半径限制地理不可分机制及位置聚类进行隐私保护,再将保护后轨迹发送给对应的好友。本发明考虑多个维度的关系特征并综合无监督聚类及神经网络方法计算关系强度,同时利用半径限制及位置聚类以提高隐私保护效用。
Description
技术领域
本发明涉及社交网络中轨迹隐私保护的技术领域,尤其是指一种社交网络中基于用户间关系强度的轨迹隐私保护方法。
背景技术
随着移动社交网络的兴起及GPS定位技术的广泛应用,人们经常通过各种运动软件记录并在微博、朋友圈等社交软件中分享自己的轨迹。考虑到社交圈中存在大量弱关系,用户不得不考虑好友攻击带来的轨迹隐私泄露及由此带来的人身财产安全威胁。尽管大部分社交软件可通过设置权限来屏蔽关系强度较弱的好友,但用户与好友之间的关系是动态变化的。因此,更现实的做法是允许不同的朋友查看不同的轨迹信息,并且应根据关系强度的变化动态调整策略和权限。
根据已有研究,用户关系强度挖掘模型主要分为图模型、相似度模型和概率模型三类,很少有从多个维度考虑用户间关系强度的影响因素并同时利用无监督聚类加有监督神经网络模型进行关系强度的计算。轨迹隐私保护的研究主要包括假数据法,泛化法,抑制法和差分隐私模型。虽然差分隐私模型现在被认为是最好的可以不考虑对手背景知识的一种满足严格数学定义的隐私保护方法,但其存在数据可用性较差的问题。而且现有的隐私保护方法不能根据用户需求进行个性化、细粒度的隐私保护。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出了一种社交网络中基于用户间关系强度的轨迹隐私保护方法,从多维度及利用无监督聚类加神经网络方法计算得到关系强度,并根据用户的个性化需求及关系强度对轨迹进行细粒度的隐私保护。
为实现上述目的,本发明所提供的技术方案为:社交网络中基于用户间关系强度的轨迹隐私保护方法,包括以下步骤:
1)用户分享原始轨迹及用户的个性化需求,并对轨迹预处理得到待保护轨迹;
2)提取社交网络数据中用户背景属性数据、连接数据及交互数据三个维度的特征数据,并利用公式计算得到特征向量;
3)将步骤2)中的特征向量形成的数据经过K-means聚类及BP神经网络计算用户间的关系强度RS;
4)设计一种满足差分隐私的半径限制地理不可分机制,应用于地理位置或轨迹的隐私保护并能保证数据的可用性;
5)将用户与好友之间的关系强度与隐私预算进行映射,对待保护轨迹使用半径限制地理不可分机制及位置聚类进行隐私保护,再将保护后轨迹发送给对应的好友。
在步骤1)中,要求轨迹为按照时间顺序组成的地理位置点的序列,且地理位置点由经纬度决定;对原始轨迹采用Douglas-Peucker压缩算法及相邻点去重的预处理方式得到待保护轨迹,确保序列长度不少于2,且轨迹即使密集也不能超过规定,其中用户个性化需求为保护与不保护两种,分别用0,1标记。
式中,NQAi表示用户i的非量化属性向量,NQAj表示好友j的非量化属性向量,性别、兴趣爱好为非量化属性,每个属性值取0,1中一个;QAi表示用户i的量化属性向量,QAj表示好友j的量化属性向量,出生年份、发文数为量化属性,每个属性值为其本身实际值,S-1为QAi与QAj间协方差矩阵的逆,T表示转置,α1与α2为权重,且α1+α2=1;
b、对于由用户之间的互相关注形成的连接数据计算得到的连接强度lsij的计算公式为:
式中,ωi表示用户i关注的好友,ωj表示好友j关注的好友,表示关注用户i的粉丝,表示关注好友j的粉丝,为用户i、好友j处于社交网络图中两者之间的所有长度为l的路径集合,β为衰减系数,γ1与γ2为权重,且γ1+γ2=1;
c、对于由评论、转发、涉及@形成的交互数据计算得到的交互强度isij计算公式为:
式中,m表示用户i的好友数,n表示好友j的好友数,WSij为用户i对好友j的交互加权得分,WSji表示好友j对用户i的交互加权得分,WSik表示用户i对好友k的交互加权得分,WSjk表示好友j对其好友k的交互加权得分,计算公式为:
其中,N表示交互类型的数量,I表示所有交互的集合,It表示第t种交互的集合,表示用户i对好友j之间的第t种交互,表示好友j对用户i之间的第t种交互,表示用户i对好友k之间的第t种交互,表示好友j对好友k之间的第t种交互,H(I)为交互熵,计算公式为:
在步骤3)中,将步骤2)计算得到的每个特征向量视作样本并形成样本集合,利用K-means算法将所有样本划分成K个类,得到每个类中心向量,同时重新标记每个样本,即对每个样本增加所属类的标签,形成标记后的样本集合,即标记样本集;接着将标记样本集经过BP神经网络训练得到计算模型,输入任意样本,即可得到概率向量;将每个类中心向量每列进行归一化,并对每列求和排序得到类的排序结果,并依此划分[0,1]为K个区间,以每个区间中心值形成关系强度区间向量;最后将概率向量乘以关系强度区间向量计算得到关系强度RS。
在步骤4)中,半径限制地理不可分机制是基于已有的地理不可分机制进行公式改进:通过限制半径的最大值以保证数据的可用性,同时依然能保证其满足差分隐私,用于地理位置或轨迹的隐私保护,具体如下:
首先,根据待保护轨迹计算出限制的最大半径rmax,公式为:
式中,n为轨迹的位置点个数,lo表示轨迹的第o个位置点,d(lo,lo+1)表示求两个位置点之间的欧几里得距离,ε为隐私预算;
接着,得到半径限制地理不可分机制的概率密度函数如下:
式中,r是原始位置点与隐私保护后位置点之间的距离,θ是原始位置点与隐私保护后位置点间连线相对于笛卡尔系统水平轴的角度;
为了能够根据原始位置点计算隐私保护后的位置点,为θ生成[0,2π)内均匀分布的随机数,r计算公式为:
式中,W-1是Lambert W函数的-1分支,q是服从[0,1)中均匀分布的随机变量;
在步骤5)中,首先,将步骤3)计算出的关系强度RS与隐私预算ε进行映射:
ε=DM*AD+RS,DM∈{0,1},AD→∞
其中,DM为用户的个性化需求,AD为调节参数;
接着,对待保护轨迹进行隐私保护,具体步骤如下:
5.1)对于待保护轨迹中的第一个位置点l1则根据随机生成r与θ,计算对应的隐私保护后的位置点z1=l1+<rcosθ,rsinθ>;
5.2)顺序遍历原始轨迹中的剩余每个位置点lo,利用位置聚类的方法:如果当前位置点lo与上一个隐私保护后的位置点zo-1间的距离小于或等于rmax,则当前位置点对应的隐私保护后的位置点zo=zo-1,否则根据随机生成r与θ,计算对应的隐私保护后的位置点zo=lo+<rcosθ,rsinθ>;
5.3)将步骤5.1)、5.2)中的隐私保护后的位置点按序形成保护后的轨迹,最后,将隐私保护后的轨迹发送给对应的好友。
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明从多个维度考虑用户关系强度的计算,提出一种综合无监督聚类及神经网络的关系强度计算方法,能够有效的体现关系强度的双向性及合理性。
2、本发明提出一种半径限制地理不可分机制用于轨迹隐私保护,不仅能很好保护隐私同时还可以提高隐私保护后数据的效用。
3、本发明考虑到用户的个性化需求,根据用户的个性化需求及与好友之间的关系强度对轨迹进行细粒度的隐私保护。
4、本发明的隐私保护方法不仅利用提出的半径限制地理不可分机制,还使用位置聚类方法,可以有效减少数据量,提高算法执行效率。
附图说明
图1为本发明方法的整体逻辑流程图。
图2为本发明的关系强度计算模型图。
图3为对待保护轨迹进行隐私保护的流程图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
如图1所示,本实施例公开了一种社交网络中基于用户间关系强度的轨迹隐私保护方法,包括以下步骤:
1)用户分享原始轨迹及用户的个性化需求,并对轨迹预处理得到待保护轨迹;要求轨迹为按照时间顺序组成的地理位置点的序列,且地理位置点由经纬度决定;对原始轨迹采用Douglas-Peucker压缩算法及相邻点去重的预处理方式得到待保护轨迹,确保序列长度不少于2,且轨迹不过分密集,其中用户个性化需求为保护与不保护两种,分别用0,1标记。
2)提取社交网络数据中用户背景属性数据、连接数据及交互数据三个维度的特征数据,并利用公式计算得到特征向量。
式中,NQAi表示用户i的非量化属性向量,NQAj表示好友j的非量化属性向量,性别、兴趣爱好为非量化属性,每个属性值取0,1中一个;QAi表示用户i的量化属性向量,QAj表示好友j的量化属性向量,出生年份、发文数为量化属性,每个属性值为其本身实际值,S-1为QAi与QAj间协方差矩阵的逆,T表示转置,α1与α2为权重,且α1+α2=1;
b、对于由用户之间的互相关注形成的连接数据计算得到的连接强度lsij的计算公式为:
式中,ωi表示用户i关注的好友,ωj表示好友j关注的好友,表示关注用户i的粉丝,表示关注好友j的粉丝,为用户i、好友j处于社交网络图中两者之间的所有长度为l的路径集合,β为衰减系数,γ1与γ2为权重,且γ1+γ2=1;
c、对于由评论、转发、涉及@形成的交互数据计算得到的交互强度isij计算公式为:
式中,m表示用户i的好友数,n表示好友j的好友数,WSij为用户i对好友j的交互加权得分,WSji表示好友j对用户i的交互加权得分,WSik表示用户i对好友k的交互加权得分,WSjk表示好友j对其好友k的交互加权得分,计算公式为:
其中,N表示交互类型的数量,I表示所有交互的集合,It表示第t种交互的集合,表示用户i对好友j之间的第t种交互,表示好友j对用户i之间的第t种交互,表示用户i对好友k之间的第t种交互,表示好友j对好友k之间的第t种交互,H(I)为交互熵,计算公式为:
3)将步骤2)中的特征向量形成的数据经过K-means聚类及BP神经网络计算用户间的关系强度RS。
将步骤2)计算得到的每个特征向量视作样本并形成样本集合,利用K-means算法将所有样本划分成K个类,得到每个类中心向量,同时重新标记每个样本,即对每个样本增加所属类的标签,形成标记后的样本集合,即标记样本集;接着将标记样本集经过BP神经网络训练得到计算模型,输入任意样本,即可得到概率向量;将每个类中心向量每列进行归一化,并对每列求和排序得到类的排序结果,并依此划分[0,1]为K个区间,以每个区间中心值形成关系强度区间向量;最后将概率向量乘以关系强度区间向量计算得到关系强度RS。
4)设计一种满足差分隐私的半径限制地理不可分机制,可以应用于地理位置或轨迹的隐私保护并能保证数据的可用性。
半径限制地理不可分机制是基于已有的地理不可分机制进行公式改进:通过限制半径的最大值以保证数据的可用性,同时依然能保证其满足差分隐私,用于地理位置或轨迹的隐私保护,具体如下:
首先,根据待保护轨迹计算出限制的最大半径rmax,公式为:
式中,n为轨迹的位置点个数,lo表示轨迹的第o个位置点,d(lo,lo+1)表示求两个位置点之间的欧几里得距离,ε为隐私预算;
接着,得到半径限制地理不可分机制的概率密度函数如下:
式中,r是原始位置点与隐私保护后位置点之间的距离,θ是原始位置点与隐私保护后位置点间连线相对于笛卡尔系统水平轴的角度;
为了能够根据原始位置点计算隐私保护后的位置点,为θ生成[0,2π)内均匀分布的随机数,r计算公式为:
式中,W-1是Lambert W函数的-1分支,q是服从[0,1)中均匀分布的随机变量。
5)将用户与好友之间的关系强度与隐私预算进行映射,对待保护轨迹使用半径限制地理不可分机制及位置聚类进行隐私保护,再将保护后轨迹发送给对应的好友,具体如下:
首先,将步骤3)计算出的关系强度RS与隐私预算ε进行映射:
ε=DM*AD+RS,DM∈{0,1},AD→∞
其中,DM为用户的个性化需求,AD为调节参数;
接着,对待保护轨迹进行隐私保护,具体步骤如下:
5.1)对于待保护轨迹中的第一个位置点l1则根据随机生成r与θ,计算对应的隐私保护后的位置点z1=l1+<rcosθ,rsinθ>;
5.2)顺序遍历原始轨迹中的剩余每个位置点lo,利用位置聚类的方法:如果当前位置点lo与上一个隐私保护后的位置点zo-1间的距离小于或等于rmax,则当前位置点对应的隐私保护后的位置点zo=zo-1,否则根据随机生成r与θ,计算对应的隐私保护后的位置点zo=lo+<rcosθ,rsinθ>;
5.3)将步骤5.1)、5.2)中的隐私保护后的位置点按序形成保护后的轨迹,最后,将隐私保护后的轨迹发送给对应的好友。
本发明可应用于移动社交网络,为用户提供有效的关于轨迹的隐私保护。以下以用户U对好友V的隐私保护对本实施例进一步说明,主要流程如下:
a、用户U分享原始轨迹及个性化需求到移动社交服务器,采用Douglas-Peucker压缩算法,阈值δ设置为100,接着采用相邻点去重的预处理方式得到待保护轨迹Tr={l0,l1,l2,...,ln},其中个性化需求为0或1,对应保护或不保护;
b、移动社交服务器中设计有关系强度计算模块,用于计算用户U与好友V之间的关系强度,接着将结合图2阐述关系强度计算过程:
b1、提取服务器中所有用户背景属性数据(出生年份,性别,发文数,兴趣爱好),将其划分成非量化属性(性别,兴趣爱好)和可量化属性(出生年份,发文数);
对于非量化属性,设用户每个非量化属性为Fi,如果用户i与好友j同一非量化属性相同,两者对应的属性值均计为1,否则其中一方属性值计为1,另一方计为0,如果存在某一方用户属性缺少,则缺失的用户属性值计为0,另一方计为1;那么,用户i非量化属性向量NQA={F0,F1,F2,...,Fn},Fi∈{0,1},则用户i与好友j之间的非量化属性相似度计算公式为:
式中,NQAi表示用户i的非量化属性向量,NQAj表示好友j的非量化属性向量,QAi表示用户i的量化属性向量,QAj表示好友j的量化属性向量;
对于量化属性,其每个属性为一个有实际意义的数值,可以通过计算距离的方法来计算用户特征相似度,采用马氏距离(Mahalanobis distance)计算用户量化属性之间的距离;设用户的量化属性向量NQA={F0',F1',F2',...,Fn'},Fi'为实数,计算用户间的量化属性距离如公式:
其中,α1+α2=1,这里α1=0.6,α2=0.4;
考虑到部分用户与好友之间不存在直接关注,但是可通过其他用户间接影响关系,于是将用户之间的互相关注视作一个有向无权社交网络图,其中每个用户表示图中的一个节点,用户之间的互相关注形成一个有向边;因此,为了衡量间接关系,采用Katz中心性来衡量用户i与好友j之间的间接连接强度:
其中,γ1+γ2=1,这里γ1=0.7,γ2=0.3;
b3、从服务器中提取评论,转发,提及(@)每一种交互类型的集合It,然后得到交互的总集合I,进而得到交互熵H(I),计算公式为:
式中,N表示交互类型数,这里N=3;
计算每种交互类型对应的交互权重wt,计算公式如下:
用户间的交互是双向的,即用户i对好友j之间的第t种交互定义为It ij,则定义用户i对好友j的交互加权得分:
最终,交互强度的计算公式为:
式中,m表示用户i的好友数,n表示好友j的好友数,公式考虑了用户i在自己的所有好友中交互加权得分所占的比例及好友j在其自己的所有好友中中交互加权得分所占的比例。
b4、将任意用户i与好友j之间按照b1-b3计算出特征向量视作样本并形成样本集合D,利用K-means算法将所有样本划分成K个类,每个类中心向量记作同时重新标记每个样本为形成标记后的样本集合DL,其中1≤t≤K,classt为样本经过聚类后所属的类别;
b5、将b4中标记的样本集DL利用BP神经网络训练得到预测模型,使用的神经网络输入层神经元个数为3,输出层神经元个数为K(聚类数),根据经验公式隐藏层神经元个数为:最后一层使用softmax函数,隐藏层使用ReLU激活函数,利用Adam算法进行优化,学习率设置为0.001;注意,该步骤中神经网络的训练是针对分类问题,但在预测时仅取最后分类结果的前一步,即概率向量;
b6、对b4得到的质心μt进行最大最小值归一化,得到标准化质心并对每个标准化质心向量stdμt的每列之和进行排序得到K个聚类中心的相对大小,并将[0,1]划分成K个区间,选择区间的中心值作为对应类的关系强度区间值si,对于任意一个样本xij(特征向量)输入b5中训练好的预测模型,可得到一个对应的概率向量Pij=<p1 ij,p2 ij,...,pK ij>,最后将概率向量乘以关系强度区间向量得到关系强度值,计算公式为:
RSij=Pij·S
其中,S=<s1,s2,...,sK>;
b7、最后,用户U与好友V之间的关系强度可以先根据b1-b3计算出特征向量xUV,输入b5中预测模型得到概率向量PUV,最后利用b6中公式计算得到关系强度RSUV。
c、移动社交服务器中的隐私保护模块对待保护轨迹Tr进行个性化隐私保护;通过限制半径的最大值来提高隐私保护的效用,本发明采用的隐私保护算法为半径限制地理不可分机制,该机制不仅满足差分隐私,同时可用于地理位置或轨迹的隐私保护,具体的:首先,根据轨迹计算出限制的最大半径rmax,公式为:
式中,n为轨迹的位置点个数,lo表示轨迹的第o个位置点,d(lo,lo+1)表示求两个位置点之间的欧几里得距离,ε为隐私预算;接着,得到半径限制的地理不可分机制的概率密度函数如下:
式中,r是原始位置与隐私保护后位置之间的距离,θ是原始位置与隐私保护后位置间连线相对于笛卡尔系统水平轴的角度;那么,为了可以根据原始位置计算隐私保护后的位置,为θ生成[0,2π)内均匀分布的随机数,r计算公式为:
式中,W-1是Lambert W函数的-1分支,q是服从[0,1)中均匀分布的随机变量;
那么对待保护轨迹Tr进行隐私保护的流程如图3所示,具体如下:
S1、根据计算得到的关系强度RSUV及用户分享的个性化需求DM通过映射公式计算得到ε,公式为:
ε=DM*AD+RS,DM∈{0,1},AD→∞
注意公式中RS表示关系强度,其表示的是当前需要进行关系强度映射的一对用户与好友之间的关系强度如RSUV,同时根据上述公式计算出rmax并初始化隐私保护后的轨迹TrP;
S2、对于Tr中的第一个位置点l1则根据上述公式随机生成r与θ,计算隐私保护后的位置点z1=l1+<rcosθ,rsinθ>,并添加到TrP中;
S3、如果当前位置点lo与上一个隐私保护后的位置点zo-1间的距离小于或等于rmax,则当前位置点对应的隐私保护后的位置点zo=zo-1,否则根据随机生成r与θ,计算对应的隐私保护后的位置点zo=lo+<rcosθ,rsinθ>,并添加zo到TrP中;
S4、将隐私保护后的轨迹TrP发送给对应的好友V。
综上,本发明提出的轨迹隐私保护方法可以基于现有的移动社交网络,增加关系强度计算模块及隐私保护模块,对用户在使用移动社交软件进行分享含有轨迹数据的信息时进行个性化细粒度的隐私保护。特别的,本实施例中需要从移动社交服务器中提取数据,对于一般的移动社交服务器应该存储上述所需所有数据。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (5)
1.社交网络中基于用户间关系强度的轨迹隐私保护方法,其特征在于,包括以下步骤:
1)用户分享原始轨迹及用户的个性化需求,并对轨迹预处理得到待保护轨迹;
2)提取社交网络数据中用户背景属性数据、连接数据及交互数据三个维度的特征数据,并利用公式计算得到特征向量;
3)将步骤2)中的特征向量形成的数据经过K-means聚类及BP神经网络计算用户间的关系强度RS;
4)设计一种满足差分隐私的半径限制地理不可分机制,应用于地理位置或轨迹的隐私保护并能保证数据的可用性;
5)将用户与好友之间的关系强度与隐私预算进行映射,对待保护轨迹使用半径限制地理不可分机制及位置聚类进行隐私保护,再将保护后轨迹发送给对应的好友。
2.根据权利要求1所述的社交网络中基于用户间关系强度的轨迹隐私保护方法,其特征在于:在步骤1)中,要求轨迹为按照时间顺序组成的地理位置点的序列,且地理位置点由经纬度决定;对原始轨迹采用Douglas-Peucker压缩算法及相邻点去重的预处理方式得到待保护轨迹,确保序列长度不少于2,且轨迹即使密集也不能超过规定,其中用户个性化需求为保护与不保护两种,分别用0,1标记。
式中,NQAi表示用户i的非量化属性向量,NQAj表示好友j的非量化属性向量,性别、兴趣爱好为非量化属性,每个属性值取0,1中一个;QAi表示用户i的量化属性向量,QAj表示好友j的量化属性向量,出生年份、发文数为量化属性,每个属性值为其本身实际值,S-1为QAi与QAj间协方差矩阵的逆,T表示转置,α1与α2为权重,且α1+α2=1;
b、对于由用户之间的互相关注形成的连接数据计算得到的连接强度lsij的计算公式为:
式中,ωi表示用户i关注的好友,ωj表示好友j关注的好友,表示关注用户i的粉丝,表示关注好友j的粉丝,为用户i、好友j处于社交网络图中两者之间的所有长度为l的路径集合,β为衰减系数,γ1与γ2为权重,且γ1+γ2=1;
c、对于由评论、转发、涉及@形成的交互数据计算得到的交互强度isij计算公式为:
式中,m表示用户i的好友数,n表示好友j的好友数,WSij为用户i对好友j的交互加权得分,WSji表示好友j对用户i的交互加权得分,WSik表示用户i对好友k的交互加权得分,WSjk表示好友j对其好友k的交互加权得分,计算公式为:
其中,N表示交互类型的数量,I表示所有交互的集合,It表示第t种交互的集合,表示用户i对好友j之间的第t种交互,表示好友j对用户i之间的第t种交互,表示用户i对好友k之间的第t种交互,表示好友j对好友k之间的第t种交互,H(I)为交互熵,计算公式为:
4.根据权利要求1所述的社交网络中基于用户间关系强度的轨迹隐私保护方法,其特征在于:在步骤3)中,将步骤2)计算得到的每个特征向量视作样本并形成样本集合,利用K-means算法将所有样本划分成K个类,得到每个类中心向量,同时重新标记每个样本,即对每个样本增加所属类的标签,形成标记后的样本集合,即标记样本集;接着将标记样本集经过BP神经网络训练得到计算模型,输入任意样本,即可得到概率向量;将每个类中心向量每列进行归一化,并对每列求和排序得到类的排序结果,并依此划分[0,1]为K个区间,以每个区间中心值形成关系强度区间向量;最后将概率向量乘以关系强度区间向量计算得到关系强度RS。
5.根据权利要求1所述的社交网络中基于用户间关系强度的轨迹隐私保护方法,其特征在于:在步骤4)中,半径限制地理不可分机制是基于已有的地理不可分机制进行公式改进:通过限制半径的最大值以保证数据的可用性,同时依然能保证其满足差分隐私,用于地理位置或轨迹的隐私保护,具体如下:
首先,根据待保护轨迹计算出限制的最大半径rmax,公式为:
式中,n为轨迹的位置点个数,lo表示轨迹的第o个位置点,d(lo,lo+1)表示求两个位置点之间的欧几里得距离,ε为隐私预算;
接着,得到半径限制地理不可分机制的概率密度函数如下:
式中,r是原始位置点与隐私保护后位置点之间的距离,θ是原始位置点与隐私保护后位置点间连线相对于笛卡尔系统水平轴的角度;
为了能够根据原始位置点计算隐私保护后的位置点,为θ生成[0,2π)内均匀分布的随机数,r计算公式为:
式中,W-1是Lambert W函数的-1分支,q是服从[0,1)中均匀分布的随机变量;
在步骤5)中,首先,将步骤3)计算出的关系强度RS与隐私预算ε进行映射:
ε=DM*AD+RS,DM∈{0,1},AD→∞
其中,DM为用户的个性化需求,AD为调节参数;
接着,对待保护轨迹进行隐私保护,具体步骤如下:
5.1)对于待保护轨迹中的第一个位置点l1则根据随机生成r与θ,计算对应的隐私保护后的位置点z1=l1+<rcosθ,rsinθ>;
5.2)顺序遍历原始轨迹中的剩余每个位置点lo,利用位置聚类的方法:如果当前位置点lo与上一个隐私保护后的位置点zo-1间的距离小于或等于rmax,则当前位置点对应的隐私保护后的位置点zo=zo-1,否则根据随机生成r与θ,计算对应的隐私保护后的位置点zo=lo+<rcosθ,rsinθ>;
5.3)将步骤5.1)、5.2)中的隐私保护后的位置点按序形成保护后的轨迹,最后,将隐私保护后的轨迹发送给对应的好友。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110101588.XA CN112800458B (zh) | 2021-01-26 | 2021-01-26 | 社交网络中基于用户间关系强度的轨迹隐私保护方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110101588.XA CN112800458B (zh) | 2021-01-26 | 2021-01-26 | 社交网络中基于用户间关系强度的轨迹隐私保护方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112800458A true CN112800458A (zh) | 2021-05-14 |
CN112800458B CN112800458B (zh) | 2022-06-14 |
Family
ID=75811734
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110101588.XA Active CN112800458B (zh) | 2021-01-26 | 2021-01-26 | 社交网络中基于用户间关系强度的轨迹隐私保护方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112800458B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113254999A (zh) * | 2021-06-04 | 2021-08-13 | 郑州轻工业大学 | 一种基于差分隐私的用户社区挖掘方法及系统 |
CN115878906A (zh) * | 2022-12-13 | 2023-03-31 | 重庆大学 | 一种保护个人相似度的社交图生成方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106899700A (zh) * | 2017-04-27 | 2017-06-27 | 电子科技大学 | 一种移动社交网络中的位置共享系统的隐私保护方法 |
CN108632139A (zh) * | 2018-03-30 | 2018-10-09 | 华南理工大学 | 基于协同定位信息的位置隐私保护方法及系统 |
CN109284449A (zh) * | 2018-10-23 | 2019-01-29 | 厦门大学 | 兴趣点的推荐方法和装置 |
CN109840714A (zh) * | 2019-02-19 | 2019-06-04 | 浙江师范大学 | 地理不可区分保护下的基于数据质量的签到激励机制方法 |
CN110516476A (zh) * | 2019-08-31 | 2019-11-29 | 贵州大学 | 基于频繁位置分类的地理不可区分性位置隐私保护方法 |
CN110727959A (zh) * | 2019-10-15 | 2020-01-24 | 南京航空航天大学 | 一种基于聚类的差分隐私轨迹数据保护方法 |
CN111447181A (zh) * | 2020-03-04 | 2020-07-24 | 重庆邮电大学 | 一种基于差分隐私的位置隐私保护方法 |
-
2021
- 2021-01-26 CN CN202110101588.XA patent/CN112800458B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106899700A (zh) * | 2017-04-27 | 2017-06-27 | 电子科技大学 | 一种移动社交网络中的位置共享系统的隐私保护方法 |
CN108632139A (zh) * | 2018-03-30 | 2018-10-09 | 华南理工大学 | 基于协同定位信息的位置隐私保护方法及系统 |
CN109284449A (zh) * | 2018-10-23 | 2019-01-29 | 厦门大学 | 兴趣点的推荐方法和装置 |
CN109840714A (zh) * | 2019-02-19 | 2019-06-04 | 浙江师范大学 | 地理不可区分保护下的基于数据质量的签到激励机制方法 |
CN110516476A (zh) * | 2019-08-31 | 2019-11-29 | 贵州大学 | 基于频繁位置分类的地理不可区分性位置隐私保护方法 |
CN110727959A (zh) * | 2019-10-15 | 2020-01-24 | 南京航空航天大学 | 一种基于聚类的差分隐私轨迹数据保护方法 |
CN111447181A (zh) * | 2020-03-04 | 2020-07-24 | 重庆邮电大学 | 一种基于差分隐私的位置隐私保护方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113254999A (zh) * | 2021-06-04 | 2021-08-13 | 郑州轻工业大学 | 一种基于差分隐私的用户社区挖掘方法及系统 |
CN115878906A (zh) * | 2022-12-13 | 2023-03-31 | 重庆大学 | 一种保护个人相似度的社交图生成方法及系统 |
CN115878906B (zh) * | 2022-12-13 | 2023-10-10 | 重庆大学 | 一种保护个人相似度的社交图生成方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112800458B (zh) | 2022-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Rao et al. | LSTM-TrajGAN: A deep learning approach to trajectory privacy protection | |
Heidari et al. | Deep contextualized word embedding for text-based online user profiling to detect social bots on twitter | |
Zhang et al. | A security-and privacy-preserving approach based on data disturbance for collaborative edge computing in social IoT systems | |
CN112800458B (zh) | 社交网络中基于用户间关系强度的轨迹隐私保护方法 | |
Hsu et al. | Using long-short-term memory based convolutional neural networks for network intrusion detection | |
Yin et al. | GANs Based Density Distribution Privacy‐Preservation on Mobility Data | |
Tu et al. | Influence of individual values on attitudes toward corruption: What undermine formal anticorruption effectiveness | |
Hildebrandt | New animism in policing: re-animating the rule of law | |
Sah et al. | Forecasting COVID‐19 Pandemic Using Prophet, ARIMA, and Hybrid Stacked LSTM‐GRU Models in India | |
Lokanan et al. | Predicting fraud victimization using classical machine learning | |
Nissan | An overview of data mining for combating crime | |
Mesiarová-Zemánková et al. | Bonferroni mean with weighted interaction | |
Choi et al. | Private attribute inference from Facebook’s public text metadata: a case study of Korean users | |
Liu et al. | A new bitcoin address association method using a two-level learner model | |
CN114912142A (zh) | 一种数据脱敏方法、装置、电子设备及存储介质 | |
Yan et al. | Perturb and optimize users’ location privacy using geo-indistinguishability and location semantics | |
Dong et al. | A Novel Noncooperative Behavior Management Method for Multiattribute Large Group Decision‐Making | |
Toapanta et al. | Parameters to Determine Cyberbullying in Social Networks in the Ecuador | |
Guo et al. | Visualization research of college students’ career planning paths integrating deep learning and big data | |
Liu et al. | Secure data publishing of private trajectory in edge computing of iot | |
Sagar et al. | Covid-19 transmission risks assessment using agent-based weighted clustering approach | |
Arabnia et al. | Advances in Artificial Intelligence and Applied Cognitive Computing | |
Bej et al. | Time-Series prediction for the epidemic trends of COVID-19 using Conditional Generative adversarial Networks Regression on country-wise case studies | |
Wei et al. | CPERS: Contextual and personalized event recommender system | |
Zhao et al. | Unveiling the Role of Message Passing in Dual-Privacy Preservation on GNNs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |