CN111431907B - 一种针对聚合位置数据系统的隐私保护性能评估系统 - Google Patents
一种针对聚合位置数据系统的隐私保护性能评估系统 Download PDFInfo
- Publication number
- CN111431907B CN111431907B CN202010226905.6A CN202010226905A CN111431907B CN 111431907 B CN111431907 B CN 111431907B CN 202010226905 A CN202010226905 A CN 202010226905A CN 111431907 B CN111431907 B CN 111431907B
- Authority
- CN
- China
- Prior art keywords
- user
- track
- aggregation
- target user
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24553—Query execution of query operations
- G06F16/24554—Unary operations; Data partitioning operations
- G06F16/24556—Aggregation; Duplicate elimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/52—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail for supporting social networking services
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/535—Tracking the activity of the user
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Computer Security & Cryptography (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Remote Sensing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种针对聚合位置数据的成员推测攻击系统,包括:语义轨迹转化模块,将用户的地理轨迹转化为能够描述用户移动模式的语义轨迹;用户移动性建模模块,分析目标用户社交网络好友的行为模式,将其建模为区域集上与时间相关的一阶马尔可夫链;轨迹相似性计算模块,利用EMD相似性度量函数计算轨迹间的相似性,从而获得目标用户的合成轨迹;二元分类器训练模块,利用合成轨迹参与和不参与数据聚合所得到的统计结果之间的差异,训练一个二元分类器,当有新的统计结果输出时,能够成功推测目标用户是否参与了数据聚合。本发明能够仅以目标用户的社交关系数据来合成目标用户的轨迹,同时训练二元分类器,成功实现数据聚合中的成员推测攻击。
Description
技术领域
本发明涉及数据聚合中的隐私安全问题领域,特别是涉及一种针对聚合位置数据系统的隐私保护性能评估系统。
背景技术
随着移动计算技术的快速发展,越来越多用户的位置数据被聚合,进而发布其统计结果以支持某些应用,例如朋友推荐、兴趣点搜索、实时定位等。然而,位置数据直接包含了用户的行踪,在一定程度上揭露了用户的身份信息、兴趣爱好、生活习惯等敏感信息。数据聚合通常被认为是防止个人用户数据公开的一种方法,但在聚合场景中,访问在敏感时间或敏感位置收集的统计信息也将侵犯聚合成员的隐私。
目前,有关数据聚合中隐私安全方面的研究主要集中在设计隐私保护算法,只有少量学者提出了攻击算法,例如位置注入攻击,时空关联攻击等,缺少对成员推测攻击的研究。除此之外,成员推测攻击大多被用于机器学习模型或基因序列的研究中,且现有工作均假设敌手在攻击过程中掌握目标用户的具体数据,这也导致了一定程度的隐私泄露。
发明内容
本发明的目的是:在只掌握目标用户背景信息的情况下,根据聚合模型输出的位置数据统计结果来判断感兴趣的用户是否参与了此次聚合运算,以此评估位置数据聚合系统的隐私保护性能。
为了达到上述目的,本发明的技术方案是提供了一种针对聚合位置数据系统的隐私保护性能评估系统,其特征在于,包括:
语义轨迹转化模块,用于将用户的地理轨迹转化为能够描述用户移动模式的语义轨迹;
用户移动性建模模块,用于分析目标用户社交网络好友的行为模式,将其建模为区域集上与时间相关的一阶马尔可夫链;
轨迹相似性计算模块,利用EMD相似性度量函数计算语义轨迹间的相似性,从而获得目标用户的合成轨迹;
二元分类器训练模块,利用合成轨迹参与和不参与数据聚合所得到的统计结果之间的差异,训练一个二元分类器,当有新的统计结果输出时,能够成功推测目标用户是否参与了聚合。
优选地,所述语义轨迹转化模块对用户签到的地理位置(xi,yi)进行聚类操作,将具有相同语义特征的位置用同一语义rj表示,并认为它们均是以相同的方式被访问,同时将轨迹上的位置点用对应的语义替换,由此完成地理轨迹trau={(x0,y0),(x1,y1),...,(xi,yi),...,(xm,ym)}到语义轨迹的转化,其中,u表示用户,表示用户u的语义轨迹,表示用户u轨迹中的第n个位置语义。
优选地,所述用户移动性建模模块将用户移动性建模为区域集上与时间相关的一阶马尔可夫链,并将用户运动轨迹的马尔可夫模型定义为<p(u),π(u)>二元组,并计算p(u)、π(u),其中p(u)为用户的转移概率矩阵,π(u)为用户的访问概率集合。
优选地,所述轨迹相似性计算模块采用EMD距离来衡量不同轨迹之间的相似度,对于任意两个分布p、q,EMD(p,q)表示分布p转化为分布q的最小代价,即p和q的相似度越高,EMD(p,q)越小,通过计算EMD(p,q),可获得目标用户社交网络中与其移动模式相似度最高的用户,由此得到目标用户的合成轨迹。
优选地,所述二元分类器训练模块用两种输入分别对聚合模型发起查询,其中一种输入由合成轨迹与一部分普通用户真实轨迹组成,将其通过聚合模型后的输出标记为“in”并添加到二元分类器的训练集中;聚合模型的另一种输入,全部由真实轨迹组成,其输出标记为“out”,同样也添加到二元分类器的训练集中;由此,通过训练,二元分类器学会识别目标用户参与和不参与聚合运算时所得到的输出的差异,当有新的统计结果输出时,该二元分类器能够成功推测目标用户是否参与了聚合运算。
由于采用了上述的技术方案,本发明与现有的技术相比,具有以下的优点和积极效果:该方案能够在不掌握目标用户真实位置数据的情况下,针对社交关系对用户移动性的影响,通过其社交关系数据来合成其位置数据,以便后续对聚合的位置数据发起成员推测攻击,由此评估位置数据聚合系统的隐私保护性能。通过在真实的签到数据上对该方案进行验证,证明了该方案能够作为隐私度量,反映用户所参与的位置数据聚合系统的成员隐私风险,攻击准确率越高,则表示聚合系统的隐私保护性能越差。
附图说明
图1是实施例的工作流程示意图;
图2是实施例中针对聚合位置数据系统的隐私保护性能评估系统实现的方法流程图;
图3是实施例中二元分类器训练过程;
图4是实施例中针对位置数据聚合的隐私保护性能评估系统实现的模块示意图
图5A及图5B是本方案与其他两个方案分别在单个、多个目标用户情况下的攻击准确率的对比结果。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
图1示出了本发明一个实施例中的工作流程示意图。利用给定的聚合模型Fagg,服务提供商将会以API的方式来给用户提供基于给定聚合模型Fagg的聚合分析服务,这个API给用户提供了一个Fagg的黑盒子接口。用户可以将带有多个数据实例的查询发送给服务提供商,并接收统计结果。敌手使用这种服务来收集有关聚合组的隐私信息。利用目标用户的任何背景信息,敌手可以构建成员推测攻击模型Fattack,以实时发起成员推测攻击。
图2示出了一个实施例中针对位置数据聚合的隐私保护性能评估系统实现的方法流程图。如图2所示,该实施例中的针对位置数据聚合的隐私保护性能评估系统实现的方法包括:
步骤2:根据语义轨迹,将上述用户的移动性建模为区域集上与时间相关的一阶马尔可夫链,计算转移概率矩阵和访问概率向量;
步骤4:构建两种输入数据集,对于包含在内的输入,经过聚合模型后输出标记为“in”,对于不包含在内的输入,经过聚合模型后输出标记为“out”,多次执行以上查询,将标记后的数据作为训练数据集,以此来训练二元分类器。
其中所述步骤2,包括如下步骤:
步骤2.1:采用基于用户行为模式的方法构建轨迹。假设用户u在统计时长τ内的轨迹记录为其中,ri为用户u在τi时刻所在的位置区域,i=0,1,……,n,τi时刻为统计时长τ内的第i个时刻。我们同时考虑位置和时间,将用户的移动性建模为区域集上与时间相关的一阶马尔可夫链。用户运动轨迹的马尔可夫模型定义为<p(u),π(u)>,其中p(u)为转移概率矩阵,π(u)为访问概率向量,为用户u由位置区域ri移动到位置区域rj的条件转移概率,为用户在τi时刻所对应的时间段内位于位置区域ri的概率,因此可以得到以下公式:
其中,Υt、Γt分别表示用户u的区域变量和时间变量,t表示当前时刻。
其中所述步骤3,包括如下步骤:
步骤3.1:采用相似性度量函数EMD计算轨迹相似度。对于任意两个分布x、y,EMD(x,y)表示分布x转化为分布y的最小代价,即x和y的相似度越高,EMD(x,y)越小,因此可以用来度量两个轨迹间的相似性。
设X和Y分别为定义在状态空间ΩX={xi|i=0,1,…,ni}和ΩY={yj|j=0,1,…,nj}的离散型随机变量,xi表示X的第i个状态,ni表示X的状态个数,yj表示Y的第j个状态,nj表示Y的状态个数。PX、PY分别是X和Y位于ΩX、ΩY上的概率分布,则分布PX和PY的EMD距离定义为:
fij≥0,0≤i≤ni,0≤j≤nj
其中,fij为X=i和Y=j的联合概率分布,d(xi,yj)为X=xi和Y=yj间的距离,表示X的边缘概率分布,,表示Y的边缘概率分布,。将EMD距离应用在用户u、v的两条轨迹的相似度计算中,有如下公式:
则用户u、v轨迹行为模式的相似性为:
式中,zG表示归一化系数,确保simG(u,v)∈[0,1]。
其中所述步骤4,包括如下步骤:
步骤4.1:如图3所示,该实施例中的二元分类器构建的具体方法如下:定义数据集中所有用户的集合为U={u1,u2,...,un},用户的轨迹集合定义为首先,攻击者选择一个感兴趣的用户utarget,利用上述的算法合成该用户的轨迹为然后创建μ个与目标模型相同的聚合模型,对于每一次查询,从用户集U中随机选择k-1个用户,不包括utarget,记这k-1个用户的轨迹为集合i=1,2,…,μ。将Tra′i与一起作为聚合模型的一个输入。之后,再从用户集U中随机选择k个用户,不包括utarget,这k个用户的轨迹定义为Tra″i构成了聚合模型的另一个输入。设聚合模型为fAM(),针对这两个输入,聚合模型分别计算相应的输出和y″i=fAM(Tra″i),并将标记好标签的数据(yi′,"in")和(y″i,"out")放入攻击模型的训练数据集中,最后用教会攻击模型如何根据聚集模型的输出来区分utarget的轨迹是否参与聚合运算。通过多次迭代来实现这种攻击,概率大于1/2(即随机猜测)即为攻击成功,攻击准确率越高,则该位置数据聚合系统的隐私保护性能越差。
基于与上述方法相同的思想,本发明实施例还提供一种针对聚合位置数据系统的隐私保护性能评估系统的数据模块。图4示出了一个实施例中的针对位置数据聚合的隐私保护性能评估系统的模块示意图,其数据模块包括:语义轨迹转化模块401,将用户的地理轨迹转化为能够描述用户移动模式的语义轨迹;用户移动性建模模块402,分析目标用户社交网络好友的行为模式,将其建模为区域集上与时间相关的一阶马尔可夫链;轨迹相似性计算模块403,利用EMD相似性度量函数计算轨迹间的相似性,从而获得目标用户的合成轨迹;二元分类器训练模块404,利用合成轨迹参与和不参与数据聚合所得到的统计结果之间的差异,训练一个二元分类器,当有新的统计结果输出时,能够成功推测目标用户是否参与了聚合,以此衡量该位置数据聚合系统的隐私保护性能。
Claims (3)
1.一种针对聚合位置数据系统的隐私保护性能评估系统,其特征在于,包括:
语义轨迹转化模块对用户签到的地理位置(xi,yi)进行聚类操作,将具有相同语义特征的位置用同一语义rj表示,并认为它们均是以相同的方式被访问,同时将轨迹上的位置点用对应的语义替换,由此完成地理轨迹trau={(x0,y0),(x1,y1),...,(xi,yi),...,(xm,ym)}到语义轨迹的转化,其中,u表示用户,表示用户u的语义轨迹,un表示用户u轨迹中的第n个位置语义;
用户移动性建模模块,用于分析目标用户社交网络好友的行为模式,采用基于用户行为模式的方法构建轨迹,假设用户u在统计时长τ内的轨迹记录为其中,ri为用户u在τi时刻所在的位置区域,i=0,1,......,n,τi时刻为统计时长τ内的第i个时刻;同时考虑位置和时间,将用户的移动性建模为区域集上与时间相关的一阶马尔可夫链;用户运动轨迹的马尔可夫模型定义为<p(u),π(u)>,其中p(u)为用户的转移概率矩阵,π(u)为用户的访问概率集合,为用户u由位置区域ri移动到位置区域rj的条件转移概率,为用户在τi时刻所对应的时间段内位于位置区域ri的概率,得到以下公式:
其中,Υt、Γt分别表示用户u的区域变量和时间变量,t表示当前时刻;
轨迹相似性计算模块,利用EMD相似性度量函数计算语义轨迹间的相似性,可获得目标用户社交网络中与其移动模式相似度最高的用户,由此得到目标用户的合成轨迹;
二元分类器训练模块,利用合成轨迹参与和不参与数据聚合所得到的统计结果之间的差异,训练一个二元分类器,当有新的统计结果输出时,能够成功推测目标用户是否参与了聚合。
2.如权利要求1所述的一种针对聚合位置数据系统的隐私保护性能评估系统,其特征在于,所述轨迹相似性计算模块采用EMD距离来衡量不同轨迹之间的相似度,对于任意两个分布p、q,EMD(p,q)表示分布p转化为分布q的最小代价,p和q的相似度越高,EMD(p,q)越小。
3.如权利要求1所述的一种针对聚合位置数据系统的隐私保护性能评估系统,其特征在于,所述二元分类器训练模块用两种输入分别对聚合模型发起查询,其中一种输入由合成轨迹与一部分普通用户真实轨迹组成,将其通过聚合模型后的输出标记为in并添加到二元分类器的训练集中;聚合模型的另一种输入,全部由真实轨迹组成,其输出标记为out,同样也添加到二元分类器的训练集中;由此,通过训练,二元分类器学会识别目标用户参与和不参与聚合运算时所得到的输出的差异,当有新的统计结果输出时,该二元分类器能够成功推测目标用户是否参与了聚合运算。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010226905.6A CN111431907B (zh) | 2020-03-27 | 2020-03-27 | 一种针对聚合位置数据系统的隐私保护性能评估系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010226905.6A CN111431907B (zh) | 2020-03-27 | 2020-03-27 | 一种针对聚合位置数据系统的隐私保护性能评估系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111431907A CN111431907A (zh) | 2020-07-17 |
CN111431907B true CN111431907B (zh) | 2021-12-10 |
Family
ID=71555486
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010226905.6A Active CN111431907B (zh) | 2020-03-27 | 2020-03-27 | 一种针对聚合位置数据系统的隐私保护性能评估系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111431907B (zh) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105912616B (zh) * | 2016-04-07 | 2019-03-26 | 电子科技大学 | 一种增强的基于轨迹重构的隐私保护方法 |
US10242230B1 (en) * | 2016-07-29 | 2019-03-26 | Microsoft Technology Licensing, Llc | Preventing inference attacks by joining on confidential data value |
CN109067750B (zh) * | 2018-08-14 | 2020-12-29 | 中国科学院信息工程研究所 | 一种基于匿名的位置隐私保护方法及装置 |
CN110262855B (zh) * | 2019-05-28 | 2022-03-29 | 东华大学 | 车联网中基于背景信息的成员推测攻击原型系统 |
-
2020
- 2020-03-27 CN CN202010226905.6A patent/CN111431907B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111431907A (zh) | 2020-07-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11070643B2 (en) | Discovering signature of electronic social networks | |
Ibrahim et al. | CNN based indoor localization using RSS time-series | |
Cheng et al. | Fused matrix factorization with geographical and social influence in location-based social networks | |
Su et al. | Generalized decision aggregation in distributed sensing systems | |
Wang et al. | Privacy preservation for context sensing on smartphone | |
CN116261731A (zh) | 基于多跳注意力图神经网络的关系学习方法与系统 | |
CN108304935A (zh) | 机器学习模型训练方法、装置和计算机设备 | |
Feng et al. | User identity linkage via co-attentive neural network from heterogeneous mobility data | |
Kurasawa et al. | Missing sensor value estimation method for participatory sensing environment | |
CN110262855B (zh) | 车联网中基于背景信息的成员推测攻击原型系统 | |
Shin et al. | User mobility synthesis based on generative adversarial networks: A survey | |
Wang et al. | Error-bounded online trajectory simplification with multi-agent reinforcement learning | |
Kittlein et al. | Deep learning and satellite imagery predict genetic diversity and differentiation | |
CN111431907B (zh) | 一种针对聚合位置数据系统的隐私保护性能评估系统 | |
CN117271899A (zh) | 一种基于时空感知的兴趣点推荐方法 | |
CN116503588A (zh) | 一种基于多元关系时空网络的poi推荐方法,装置及设备 | |
CN116306969A (zh) | 基于自监督学习的联邦学习方法和系统 | |
Jung et al. | A discriminative approach to predicting assessor accuracy | |
CN113641887A (zh) | 一种基于语义轨迹模式的移动轨迹去匿名方法及系统 | |
CN113516229A (zh) | 面向群智感知系统的可信用户优化选择方法 | |
CN109617870B (zh) | 基于动态运动模式的隐私保护方法 | |
CN113423058A (zh) | 一种基于位置服务的隐私保护方法 | |
WO2020075462A1 (ja) | 学習器推定装置、学習器推定方法、リスク評価装置、リスク評価方法、プログラム | |
CN113010772A (zh) | 一种数据处理方法、相关设备及计算机可读存储介质 | |
Lin et al. | Finding similar users from GPS data based on assignment problem |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |