CN103914659A

CN103914659A - 基于频率的轨迹抑制数据发布隐私保护的系统及其方法

Info

Publication number: CN103914659A
Application number: CN201410088673.7A
Authority: CN
Inventors: 李兴华; 张渊; 高胜; 邓凌娟; 赵婧; 王二蒙; 马建峰; 姚青松; 姜奇; 毛立强
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2014-03-12
Filing date: 2014-03-12
Publication date: 2014-07-09
Anticipated expiration: 2034-03-12
Also published as: CN103914659B

Abstract

本发明公开了一种基于频率的轨迹抑制数据发布隐私保护的系统，所述系统具有若干发布消息的用户，用于收集所述用户的发布消息的数据收集服务器，所述系统还包括与所述数据收集服务器连接的匿名服务器，所述匿名服务器设有数据预处理模块，隐私保护模块，数据效用衡量模块。本发明利用所述系统提出一种方案，采用特定的轨迹局部抑制法进行匿名处理。该方案基于轨迹频率进行匿名处理，且在满足用户隐私需求的同时最大程度地提高了匿名数据的效用。并通过多次实验在同等隐私需求的情况下，匿名后的数据效用提升了近30％，使得方案在解决数据发布的问题时更有现实意义。

Description

基于频率的轨迹抑制数据发布隐私保护的系统及其方法

技术领域

本发明涉及通信领域中的数据发布，具体涉及一种基于频率的轨迹抑制数据发布隐私保护的系统及其方法。

背景技术

随着由于移动设备和定位技术的广泛使用，会产生大量的移动对象轨迹数据；轨迹数据含有丰富的时空信息，对其分析和挖掘可以支持多种与移动对象相关的应用，这一事实已经激发了数据挖掘的研究，并应用于实际生活中，如城市交通管理等。然而，这些轨迹数据中往往包含了关系到个人敏感信息的隐私数据。若数据发布者者对数据不做任何处理直接发布，对个人来说，其敏感信息会被泄露。然而，随着个人对其隐私信息保护需求的增长，数据发布中隐私保护问题目前已成为数据挖掘领域研究热点之一。由于个人对隐私的关注，数据发布者对数据进行发布时，一方面要使得发布的匿名数据不泄露个体的隐私信息，即保证攻击者不能以高置信度推测出目标个体的敏感信息；另一方面需要保证发布的匿名数据具有高可用性，即仍然能够根据发布的匿名数据进行较准确的数据分析，如集合查询等，这就要求匿名后的数据效用要尽可能的高。因此，如何在满足用户隐私需求的情况下尽可能地提升匿名数据的利用率是必须要解决的问题。

目前大部分方案都采用轨迹k-匿名技术实现轨迹匿名。基于GPS定位的不精确性，Abul“Never wa lk a lone：uncerta inty for anonymity in moving objects databases”等提出NWA匿名算法通过轨迹聚簇和空间转换来实现所提出的(k，δ)-匿名模型，其中表示定位误差。通过将轨迹k-匿名集合的构建问题抽象为图模型，Huo“History trajectory privacy-preserving through graph partition”等提出根据轨迹间的距离来划分合适的轨迹k-匿名集合。考虑到用户对轨迹隐私和数据效用的不同需求，Gao“Balancing Trajectory Privacy and Data Utility using a Personalized Anonymization Model”等提出一种个性化匿名模型以构建合适的匿名集合用来均衡两者的关系。此外，与本发明最相关的工作“Privacy preservation in the publication of trajectories”采用轨迹抑制技术来解决。引文“Privacy preservation in the publication of trajectories”等研究了轨迹数据发布过程中的隐私保护问题。数据库中的轨迹集记录了大量用户的交易位置序列信息，交易位置序列通过他们使用的信用卡或RFID借记卡获取。例如：一个智能RFID卡公司(拥有该智能卡的用户可以在很多场所进行各种交易如商店，停车场，餐馆等)能够发行一种智能卡，通过智能卡能够跟踪所有用户的交易记录，可统计大量用户的日常轨迹数据。在本例中，数据发布者是该智能卡公司，而攻击者是交易的各种场所如商店等，如果该商店是连锁店，则攻击者可能知道用户轨迹数据中的多个数据。上文引文“Privacy preservation in the publication of trajectories”证明了如果这样的轨迹数据完全公布(仅隐藏用户的身份)，对于持有部分轨迹信息的攻击者来说，这无疑是一个高风险的泄露用户隐私的行为。针对这一问题，文中引文“Privacy preservation in the publication of trajectories”引入了有问题的投影集概念，且提出以部分轨迹作为一个准标识符来标识其它位置的一种轨迹抑制的方案来解决用户隐私泄露的问题。但该方案存在以下问题：1、采用全局抑制方案对数据进行处理，导致匿名数据的效用较低；2、没有考虑到频率，从而匿名数据对于基于统计的数据挖掘效用较差。

近年来，研究人员针对数据发布中隐私保护问题，提出了多种解决方案，如K-匿名，L-多样性及与RFID相关的匿名轨迹数据隐私保护技术等。

K-匿名和L-多样性

在轨迹发布的研究中，关于保护用户隐私的问题已进入微观数据库，例如，一家医院公布病人的诊断记录，以便于研究人员研究各种疾病的特征，但是每一条记录中通常包含一个或多个敏感的属性(例如疾病)，且包含个人的身份属性(如姓名)，为了保护个人的隐私信息不被泄漏，往往会在信息发布之前去掉身份属性，从而认为个人隐私信息是安全的。但是这种想法是错误的，因为存在其他一些属性的组合仍然可以唯一地或近似标识出某一元组，这些属性如果与得到的其他公开发布的信息进行链接往往会导致个人隐私信息的泄露。引文“k-anonymity：A model for protecting privacy”证明了在发布这些数据前，只隐藏明确的身份(如姓名，身份证)是不够的。特别是通过将一组非敏感属性集作为一个人的属性，即准标识符(如(性别，年龄，邮政编码))，恶意攻击者根据准标识符能够推断出他／她的记录。例如通过加入公共投票登记数据库，数据库中病人的身份是匿名的，但是通过比较准标识符表，人们可以很容易地推断出病人的身份。为了防止这种链接攻击，即属性链接攻击，很多学者提出K-匿名“Protecting respondents’ident ities in micro data release”，“Generalizing data to provide anonymity when disclosing information”的方法，在发布这些数据库中的记录集之前，先抑制或是概括准标示符的属性值，从而使每条记录至少有K-1个人拥有相同的准标示符值。

尽管通过K-匿名可以防止属性链接攻击，但是攻击者无须准确匹配目标对象在发布数据表中的记录，根据准标识符，按照其所在的等价类仍能够推断出其敏感属性的取值，同样会导致个人隐私的泄露。为了防止攻击者进行该类攻击，近来的许多学者又提出另一种解决方案：L-多样性‘L-diversity：privacy beyond k-anonymity”。L-多样性模型要求每个QID分组中对应的敏感属性至少有L个well-represented取值，即要求发布者应使得按QID得到的记录分组中的敏感属性取值多样化，即分布尽可能的均匀。本发明处理的问题和上述问题存在两方面的不同：1、敏感属性取值并不是绝对的，而是和攻击者相关联的，即对于一条记录来说，考虑某一攻击者时，记录中该攻击者知道的信息标记为准标识符，其余的标记为敏感属性值。2、通过本发明的定义可知，这里的准标识符对应轨迹投影，其长度是可变的。因此本发明要解决的问题不同于以往的问题。

匿名轨迹数据隐私保护技术

近年来，学者从不同的角度研究轨迹数据的匿名技术。引文“Never walk alone：uncertainty for anonymity in moving objects databases”提出(K，D)-匿名技术，其基于采样和定位系统的不精确性，其中d表示位置的不精确度，总体思想是基于空间平移来修改路径的轨迹，使得k个不同轨迹共同存于一个半径为d的圆柱体。然而当轨迹数据来源于交易记录，RFID数据及购买记录时，不精确的假设可能不成立。由于轨迹数据的高维性，引文“Pattern-preserving k-anonymization of sequences and its application to mobility datamining”，“Privacy preservation in the publication of trajectories”，“Anonymizing moving objects：How to hide a MOB in a crowd?”研究了基于一种简化形式的轨迹数据的匿名问题，仅考虑时间的顺序即序列轨迹。引文

“Pattern-preserving k-anonymization of sequences and its application to mobility data mining”提出一种顺序数据的变型K-匿名模型，主要通过插入、删除或替换某些数据项实现K-匿名。引文“Privacy preservation in the publication of trajectories”进一步假设不同的对手可能拥有不同的背景知识，且数据发布者要知道所有这些对抗性知识，其目的是防止对手从公布的顺序数据中获得额外的信息。引文“Anonymizing moving objects：How to hide a MOB in a crowd?”提出了一种新的基于移动物体的K-匿名概念，不同的移动物体可以具有不同QID。然而他们仅是通过防止身份链接攻击来实现隐私保护，而本发明要求不仅可以防止身份链接的攻击，同时也要能够防止属性攻击，以适应新兴的轨迹数据发布方案。

引文“Privacy preservation in the publication of trajectories”，“Balancing Trajectory Privacy and Data Utility using a Personalized Anonymization Model”，“Privacy-preserving trajectory data publishing by local suppression”针对属性攻击问题，提出了通过对轨迹数据集进行抑制实现K-匿名。引文“Privacy preservation in the publication of trajectories”引入了有问题的投影集概念，并采用全局抑制对其进行处理，以达到满足用户隐私需求的目的；引文“Balancing Trajectory Privacy and Data Ut ility us ing a Personalized Anonymization Model”，“Privacy-preserving trajectory data publishing by local suppression”研究了与RFID相关的轨迹数据发布的隐私安全问题。提出了LKC-匿名隐私模型，其中L代表攻击者可获取的轨迹序列长度，C代表隐私需求；通过对轨迹集进行处理找到违反隐私需求的轨迹序列集，并采用局部抑制方法实现隐私保护。然而引文“Balancing Trajectory Privacy and Data Utility using a Personalized Anonymization Model”，

“Privacy-preserving trajectory data publishing by local suppression”所解决的问题不同于本发明的问题，其更关注解决轨迹发布的高维性问题，且并没有考虑攻击者的数量；而引文“Privacy preservation in the pub lication of trajectories”中攻击者数量是可变的，但是其所采用保护用户隐私的轨迹抑制方法，导致数据效用较低。

发明内容

鉴于现有技术的不足，本发明旨在于提供一种基于频率的轨迹抑制数据发布隐私保护的系统及其方法，提出了解决用户轨迹发布中隐私保护的一种方案，通过对有问题的投影集进行局部抑制防止多个攻击者进行属性攻击保证用户轨迹隐私需求。

需要说明的是，本发明提出一种匿名方案，通过求解隐私关联度和数据效用之间的关系对轨迹数据进行局部抑制，在每次匿名处理过程中，将对整条轨迹记录的抑制改为抑制轨迹中的某一位置数据，有效地提升了数据效用和性能，并通过多次仿真实验，在满足用户隐私需求的情况下，将匿名数据的效用提升了近30％。

需要进一步说明的是，轨迹数据集相关定义如下：

轨迹数据集T是所有用户轨迹序列的集合，形式化表示为：

其中，t_i表示用户i的运动轨迹，代表用户i的历史足迹。

对每个用户i，其运动轨迹t_i是由n个不同时刻time_i的位置序列组成，可表示为：

t_i={＜loc₁(x₁，y₁)，time₁＞→…→＜loc_n(x_n，y_n)，time_n＞}

其中＜loc_i(x_i，y_i)，time_i＞代表time_i时刻用户i所在的具体位置。

为了简化处理，轨迹序列包含用户的位置信息，且位置信息按照时间time_i升序排列；Table3.1、Table3.2、Table3.3及Table3.4是为了方便理解，在后续部分会以此为例进行说明，这里仅有两个攻击者a，b，且用户的隐私容忍度P_br设置为0.5。

定义3.1轨迹记录：轨迹记录是由n个位置信息按照时间顺序组成的长度为n的一条记录t＝＜loc₁，loc₂，......，loc_n＞，其中loc_i∈A。

A是数据发布中心可以掌控的所有位置，这里我们假设A={a₁，a₂，a₃，b₁，b₂，b₃)，如智能卡公司(相当于数据发布中心)可以发行一种智能卡，A代表的是可以刷该种卡的所有位置，如商店，停车场等；由于存在商业垄断，一个商店可能拥有不同的分商店。A被分为m个互不相交的非空子集，即根据表1有A=A₁∪A₂，A₁＝{a₁，a₂，a₃}，A₂＝{b₁，b₂，b₃}；

表1轨迹数据集T

τ_id	rajectory
		τ₁	a₁→O₁→a₂
τ₂	a₁→O₁→a₂→O₃
		τ₃	a₁→O₂→a₂
τ₄	a₁→a₂→O₂
		τ₅	a₁→a₃→o₁
τ₆	a₂→a₃→O₁
		τ₇	a₂→a₃→O₂
t₃	a₂→a₃→o₂→o₃

表2攻击者v_a的知识TP_a

τ_id	rajectory
		τ₁	a₁→a₂
τ₂	a₁→a₂
		τ₃	a₁→a₂
τ₄	a₁→a₂
		τ₅	a₁→a₃
τ₆	a₂→a₃
		τ₇	a₂→a₃
τ₃	a₂→a₃

表3匿名轨迹集T₂′

τ_id	rajectory
		t₁	a₁→o₁→a₂
t₂	a₁→o₂→a₂
		t₃	a₁→o₂→a₂
t₄	a₁→a₂→o₂
		t₅a₃→O₁
t₆	a₃→O₁
		t₇	a₃
t₃	a₃→O₂
		t₉	a₃→o₂

攻击者模型

这里我们假定潜在的攻击者数量为m个，则有其中V为攻击者集合；每个攻击者v_i可以掌控A_i中包含的所有位置信息，则有：且针对每一条轨迹记录t∈T，每一个攻击者v_i∈V都拥有一个投影知识定义如下。

定义3.2投影：若仅考虑一个攻击者v，则一条轨迹记录t=＜loc₁，loc₂，......，loc_n＞的投影为称t^v为t相对于攻击者v的投影。

这里，t^v即称之为攻击者v的投影知识，投影t^v是t的一个子轨迹记录，仅由t中属于A_v的所有位置数据点组成。因此，每一个攻击者将会拥有所有轨迹数据集T中的投影集TP_v，且如攻击者v的投影集TP_a(如表3.2)就是根据定义2通过轨迹记录集T(如表3.1)得到。

攻击者v所拥有的知识仅是TP_v，攻击者可以根据其拥有的知识TP_v很容易地推断出经过t^v中全部位置的所有用户的身份信息，进而推断出其他信息。对该问题，我们进行如下定义：

定义3.3给定原始轨迹数据集T，T′是T经过处理后要公布的轨迹数据集；若每一个攻击者v都不能以高于P_br概率准确地推断出任一位置信息loc_j，这里则认为T′是安全的，可以公开发布，否则就不安全，不能公开发布。

本部分主要考虑攻击者可能发起的攻击：(1)身份连接攻击：由于攻击者掌握用户的部分信息和对应的用户身份信息，所以攻击者可以根据这些局部信息实行身份连接攻击，从而推断出用户的身份；(2)属性链接攻击：攻击者根据掌握的用户的局部信息作为用户的准标识符发起属性连接攻击，从而推断出用户的其他属性信息；

我们不希望攻击者v，拥有关于轨迹记录t的投影t^v的知识，从即将要发布的轨迹数据集T′中推断出其他任何不属于t^v的位置信息或者用户的身份信息，即进行身份连接攻击和属性连接攻击；这一问题类似于1-多样性问题“Privacy protection for RFID data”，“Walking in the crowd：anonymizing trajectory data for pattern analysis”，其中t^v中的位置信息类似于准标识符QID，而其他的位置信息则类似于敏感属性S。该问题和以往的轨迹数据发布问题相比，有很大不同；随着攻击数量的变化，从不同攻击者的角度出发，每一个攻击者的投影知识t^v∈TP_v都可以作为轨迹记录t的准标识符QID，由于t^v的长度是可变长的，因此，每一条轨迹记录t^∈T的准标示符都是可变长的，且可能有多个；对于每一条轨迹记录t^∈T，其敏感属性S也是不唯一的，可能有多个；综上所述，本文研究的问题和以往不同的是：(a)准标识符QID是可变长的，且可能有多个；(b)敏感属性S不是唯一的，可能是多个；(c)攻击者也是不唯一的，可能有多个。

隐私保护模型

由于攻击者拥有局部的轨迹信息，仅移除或隐藏原始轨迹集集中的身份信息如ID，攻击者仍然能够以一定的概率推断出用户的身份和其他敏感信息，从而导致用户的隐私受到威胁。为了保护用户的隐私在其可容忍度P_br范围内，我们定义了如下隐私模型P_br-privacy，该模型保证了攻击者不会以高于P_br的概率推断出任意用户的身份信息和其它不被攻击者所掌握的位置信息(亦称之为敏感信息)。

S(t^v，TP_v)：根据定义3.2从轨迹数据集T中找到攻击者v的投影知识TP_v，并从TP_v中找到满足特定条件的所有轨迹记录集S(t^v，TP_v)，S(t^v，TP_v)={t′|t′∈TP_v∧t′=t^v}。

S(t^v，TP_v)是攻击者v的投影知识TP_v中所有与轨迹t^v相同的轨迹形成的集合，如攻击者a的投影集TP_a如表2，若t^a={a₁→a₂}，则S(t^a，TP_a)是用户t₁→t₄的轨迹集合。攻击者v根据S(t^v，TP_v)推断出其他位置loc_j的概率为p(loc_j，t^v，T′)＝sup(loc_j，t^v，T′)/|S(TV，T′)|，为了使匿名的数据T′在一定程度上保护用户的隐私(假设用户的隐私容忍度为P_br)，我们进行如下定义：

P_br-privacy：若且若p(loc_j，t^v，T′)＜P_br成立，则认为T→T′的转换是安全的，可以公开发布T′；若p(loc_j，t^v，T′)＞P_br，则认为T→T′的转换是不安全的，并标记t^v为有问题的投影轨迹，根据特定匿名算法对有问题的投影记录作处理，使得T→T′的转换是安全的。

如果所有的攻击者从T′中推断出任意不被自身掌握的位置信息的概率都小于用户的隐私容忍度P_br，则表明该轨迹数据集T′满足了用户的隐私需求，是安全的数据集，可以进行发布。如表1中数据集T不能够直接发布，而经过匿名处理的数据集T′则是安全的，可以发布。

数据效用

数据发布者发布轨迹数据的目的是为了让接收者进行数据挖掘；为了尽可能满足多个接收者完成不同的数据挖掘任务，使其更好的服务于社会，我们不得不考虑如何提高数据效用UL。本部分给出一种数据效用的定义。(当然UL也可以根据不同的需求进行不同的定义)：

若原始轨迹数据集T的足迹个数记作|T|，匿名的轨迹数据集T′中的足迹个数记作|T′|，则有：

若UL的值越小，数据效用越好；若UL的值越大，数据效用越差。

基于上述描述，本发明采用的技术方案如下：

基于频率的轨迹抑制数据发布隐私保护的系统，所述系统具有若干发布消息的用户，用于收集所述用户的发布消息的数据收集服务器，所述系统还包括与所述数据收集服务器连接的匿名服务器，所述匿名服务器设有数据预处理模块，隐私保护模块，数据效用衡量模块，其中

所述数据预处理模块：对收集到的原始数据进行预处理，即对所述原始数据按照用户身份进行归类，并将同一用户身份的所有位置数据按照时间戳排序，最终形成用户的原始轨迹序列集合；

所述隐私保护模块：对预处理后的轨迹序列集合进行隐私保护处理，即根据用户的隐私需求，找到不满足用户隐私容忍度的轨迹序列集合，然后将这些集合按照频率进行排序，从而得到安全的可发布的轨迹数据集合；

所述数据效用衡量模块：负责评估经过所述隐私保护模块处理后的轨迹数据集合的可用性，即统计匿名轨迹数据集的数据效用。

需要说明的是，所述隐私保护模块对不满足用户隐私需求的轨迹序列集合进行排序后，可对即将发布的轨迹数据集进行轨迹抑制并适时添加假数据；可对即将发布的轨迹数据集进行轨迹局部抑制。

一种实现抑制数据发布隐私保护的方法，所述方法包括：

S1收集并预处理原始数据，并最终形成若干用户的原始轨迹序列集合；

S2对所述原始轨迹序列集合进行匿名处理，其中包括：

S2.1在所述原始轨迹序列集合中找到不满足用户隐私容忍度的有问题的投影集VP；

S2.2将问题投影集VP中的所有轨迹按照其在原始轨迹序列集合中出现的频率进行降序排序，并将结果保存到集合FVP；

S3搜索所述集合FVP中前|PS|个出现频率最高的轨迹投影记录，对其进行匿名处理，其中，所述匿名处理包括轨迹抑制处理，直至或结束匿名处理；

S4对经过所述匿名处理后的轨迹序列集合可进行发布。

需要说明的是，所述匿名处理还包括局部抑制处理，其中：

S100在所述集合FVP中找到最小的违反隐私需求的轨迹序列集，并保存到轨迹集合MVP；

S101根据攻击者的知识计算所述轨迹序列集MVP中所有轨迹点的R(PG(loc_i)，UL(loc_i))值，每次找到R(PG(loc_i)，UL(loc_i))值较大的轨迹点loc_i，并在原始轨迹集中找到与MVP中的所有包含位置信息的轨迹记录相对应的轨迹集，抑制该轨迹集中的位置信息loc_i，此处理需迭代进行，直至束。

需要说明的是，若所述集合FVP为空集，则表示当前原始轨迹序列集合为安全状态，可进行发布。

本发明有益效果在于，在满足用户隐私需求的同时，显著地改善了匿名的数据质量，不同程度地提升了数据效用，很好地解决了数据发布中用户的隐私需求和数据效用之间的均衡问题；本发明通过多次实验证明了在同等隐私需求的情况下，匿名后的数据效用提升了近30％，使得方案在解决数据发布的问题时更有现实意义。

附图说明

图1为本发明方案与对比方案的比较图；

图2为本发明方案与对比方案的另一种比较图；

图3为本发明方案与对比方案的另一种比较图。

具体实施方式

下面将结合附图对本发明作进一步的描述。需要说明的是，本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本发明为一种基于频率的轨迹抑制数据发布隐私保护的系统，所述系统具有若干发布消息的用户，用于收集所述用户的发布消息的数据收集服务器，所述系统还包括与所述数据收集服务器连接的匿名服务器，所述匿名服务器设有数据预处理模块，隐私保护模块，数据效用衡量模块，其中

一种实现抑制数据发布隐私保护的方法，所述方法包括：

S2对所述原始轨迹序列集合进行匿名处理，其中包括：

S4对经过所述匿名处理后的轨迹序列集合可进行发布。

需要说明的是本发明提出一种局部抑制的方案，通过求解隐私关联度和数据效用之间的关系对轨迹数据进行局部抑制，在每次匿名处理过程中，将对整条轨迹记录的抑制改为抑制轨迹中的某一位置数据，有效地提升了数据效用和性能。

需要进一步说明的是，所述匿名处理还包括局部抑制处理，其中：

需要进一步说明的是，所述局部抑制处理包含：

(1)IVPA处理，从原始轨迹数据集T中找到不满足用户的隐私容忍度P_br的有问题的投影集VP；

(2)FVPA处理：将有问题的投影集VP中的所有轨迹按照其在轨迹集T中出现的频率进行排序，并将结果保存到集合FVP；

(3)IMVA处理：在有问题的投影集FVP中找到最小的违反隐私需求的轨迹序列集，并保存到轨迹集合MVP的算法IMVA；

(4)TAA_1处理：根据攻击者v的知识A_v计算轨迹序列集MVP中所有轨迹点的R(PG(loc_i)，UL(loc_i))值，每次找到R(PG(loc_i)，UL(loc_i))值较大的轨迹点loc_i，并在原始轨迹集T中找到与MVP中的所有包含位置信息的轨迹记录相对应的轨迹集，抑制该轨迹集中的位置信息loc_i，此步骤需迭代进行，直至结束。

IVPA处理

为了更好的理解对原始轨迹数据集T所采用的匿名处理过程，进行以下定义：

VP_v：攻击者v推断出其他位置loc_j的概率为P(loc_j，tv，T′)；若P(loc_j，t^v，T′)＞P_br，则记录t^v为有问题的轨迹投影，VP_v={t^v|t^v∈TP_V∧P(loc_j，t^v，T′)＞P_br}。

这里VP_v是攻击者v的投影知识TP_v中有问题的投影集，即攻击者能够以高于用户的隐私容忍度P_br的概率推断出与VP_v中的轨迹记录相对应的原始轨迹中其他的位置信息；这样的轨迹记录对于用户来说，是不安全的，所以需对其进行匿名处理。由于这里有m个攻击者，所以有：

例如：对于攻击者a，b来说，由表1、表2及上述定义可知，有问题的投影集为：

VP_a={a₁→a₃，a₂→a₃}，

VP_b={b₁，b₁→b3，b₂，b₂→b₃}

VP={a₁→a₃，a₂→a₃，b₁，b₁→b₃，b₂，b₂→b3}。

IVPA处理描述：

IVPA伪代码描述：

输入：原始轨迹集T，用户容忍度P_br，每一个攻击者v所掌握的位置集合A_v；

输出：违背用户隐私需求的投影集合VP；

for all v in V and t in T

／／根据定义3.2，求取每一攻击者v的投影知识TP_v；

for all t^v∈TP_v do

sup(loc_j，t^v，T)：＝0；／／初始化sup(loc_j，t^v，T)为0；

for all v∈V do

calculate sup(loc_j，t^v，T)；／／统计原始轨迹集中所有不属于攻击者v的位置数据出现的次数；

for all v∈V do

calcula teS(t^v，TP_v)oft^vin TP_V；／／统计轨迹投影记录t^v在集合TP_v出现的次数；

for all t^v∈TP_v do

p(loc_j，t^v，T)＝sup(loc_j，t^v，T)／|S(t^v，T)|；

If P(loc_j，t^v，T)＞P_br then

VP_v：=push_back(VP_v)；／／找到所有不满足用户隐私需求的轨迹影t^v，并将其保存到集合VP_v中；

for all v in V do

VP：＝push_bACk(VP_V)；／／找到所有有问题的投影集合VP；

FVPA处理

该处理基于IVPA，将有问题的投影集VP中的轨迹序列按照其在原始轨迹集T中出现的次数降序排列，使出现频率较高的轨迹序列优先得到处理，通过多次实验，发现该算法在一定程度上可以减少被抑制的点数。

例如：对攻击者a来说，其轨迹序列{a₁→a₂}、{a₁→a3}、{a₂→a₃}，分别出现的次数为4、1、3，排序后的结果是：

{a₁→a₂}→{a₂→a₃}→{a₁→a₃}。

FVPA处理描述：

FVPA伪代码描述：

输入：违背用户隐私需求的投影集合VP

输出：依据频率降序排列有问题的轨迹投影集合FVP，

for all v in V do

for all t^v∈VP_v do

f(t^v，VP_v)：=0；／／初始化f(t^v，VP_v)，该集合用于保存轨迹投影记

录t^v在VP_v中出现的次数；

for all v∈V do

for allt^v∈VPv do

calculate the frequency f(t^v，VP_v)oft^vwhich occurs inVP_v；／／统计

所有的轨迹投影记录t^v在集合VP_v中出现的次数；

F(t^v，frequency)：=push_back(t^v，f(t^v，VP_v))；／／将轨迹投影和对应出现的次数保存到集合FVP_v中；

for all v∈V do

sort al l trajectories inVP_vindescending order according to the frequency F(t^v，VPv)，and save them inFVP_v；／／将所有有问题的投影轨迹记录按照频率降序排列；

FVP：=push_back(FVP_v)；

IMVA算法

MVP_v：若或时，则将合并为则有

为了提升匿名数据的效用，该处理仅通过对有问题的投影集FVP_v进行合并，将集合FVP_v缩小，从而得到最小的有问题的投影集MVP_v。由于这里有m个攻击者，所以有：

例如：对于攻击者a，b来说，FVP_a={a₂→a₃，a₁→a₃}，FVP_b={b₁，b₂，b₁→b₃，b₂→b₃}；通过算法IMVA，得到MVP_a={a₂→a₃，a₁→a₃}，MVP_b={b₁，b₂}。

IMVA处理描述：

MVPA伪代码描述：

输入：依据频率降序排列的有问题的轨迹投影集合FVP；

输出：最小的有问题的轨迹投影集合MVP；

for all vin V do

for alldo

Iforthen

replace all the trajectoriesandin FVP_vwith

call Alg.IVPA and Alg.FVPA；／／将集合FVP_v中所有包含关系或子集关系的投影记录和用代替；

else do

／／若找不到包含关系或子集关系时，则轨迹记录保存到集合MVP_v；

for all v∈V do

MVP：=push_back(MVP_v)；

TAA_1处理：

在对数据集T进行匿名处理前，我们需要进行如下定义：

R(PG(loc_i)，UL(loc_i))=PG(loc_i)/(UL(loc_i)+1)

PG(loc_i)：我们定义其为与位置loc_i相关的隐私关联度，代表由删除点loc_i所带来的隐私收益，其值为集合MVP_v中包含点loc_i的不同的轨迹个数；但是当某一位置点仅和自身关联时，其隐私关联度仍定义为1。因为若将隐私关联度定义为0，当多个位置都和自身关联，导致多个位置的R值是相同的，会造成对位置点的随机删除，因此，为了避免该种情况的出现，将其定义为1，那么出现次数较少的点便会优先被抑制，从而提升数据的效用。UL(loc_i)：代表由删除位置点loc_i的所带来的信息损失量，其值为MVP_v中所有的轨迹中包含点loc_i的总数；PG(loc_i)的值越大，代表由删除点loc_i所带来的隐私收益越大，且信息损失量越小。

该匿名算法不同于以往的轨迹匿名算法，这里我们采用局部抑制轨迹集MVP中点的方法对轨迹数据集T进行匿名处理；为了获得好的隐私收益和较高的数据效用，在处理轨迹集MVP中的位置信息时，优先抑制PG(loc_i)最大的点loc_i，从而使得每删除一个点loc_i所带的隐私保护和数据效用都同时达到最优。具体处理描述如下：

表4R(PG，UL)值

位置数据	PG	UL	R(PG，UL)
				a₁	1	1	1
a₂	1	3	0.33
				a₃	2	4	0.5
O₁	1	4	0.25
				O₂	1	4	0.25

例如：对于攻击者a，b来说，MVP_a={a₂→a₃，a₁→a₃}，MVP_b={b₁，b₂}。按照上述定义计算得到表4；由表4知R(PG(a₁)1UL(a₁))最大，由于轨迹a₁→a₃对应T′中的轨迹a₁→a₃→b₁，所以删除轨迹a₁→a₃→b₁中的点a₁，即a₁→a₃→b₁变为a₃→b₁，循环迭代，直至结束，最终结果如表3。

TDA_2处理描述：

TDA_2伪代码描述：

输出：可发布的安全的轨迹数据集T′；

construct projection TP_v for every attacker v∈V；

initial T′：＝T；

whiledo

call Alg.IVPA，Alg.FVPA and Alg.MVPA；

for all v in V do

calculate the R(PG，UL)s of all the points inA_vaccording to MVP_vby definition4.3，and select the highes t R(PG，UL).／／根据定义4.3及集合MVP_v，计算所有位置数据的R(PG，UL)；

for allt^v∈MVP_v

find all trajectories T₁which include the point with highest

R(PG，UL)；／／在集合MVP_v找到所有包含R(PG，UL)最高位置数据的轨迹记录；

for all t∈TP^v

find all trajectoriesT₂which contain the trajectories inT₁.／／在投影集TP^v找到所有包含T₁中的轨迹投影，并保存到集合T₂中；

for allt∈T′do

find all trajectories T3with the project ions the same with the trajectories in T₂，and delete the point wi th highes t R(PG，UL)in all trajectories inT₃.／／根据集合T₂，在轨迹集T′中找到对应的轨迹记录，并保存到集合T₃中，抑制集合T₃中所有轨迹记录中的对应R(PG，UL)值最高的位置数据；

OUtput T′；／／输出安全的可发布数据集；

实验评估及结果

为验证所提方案的有效性，我们进行了一系列的实验：在相同轨迹数据集的情况下，通过设置不同的攻击者数量和用户的隐私容忍度，采用“Privacy preservation in the publication of trajectories”(下称“对比方案”)的匿名方法和本发明所提的匿名方案分别进行实验，并根据实验结果，进行对比分析。

实验环境和实验数据

实验环境为2.83GHz的Intel双核CPU，2GB内存，操作系统平台为windows XP。在VC编程环境下，通过C++编程实现匿名算法；通过Brinkoff生成器在Oldenburg地图上模拟产生移动用户的坐标信息，经过简单地处理得到用户的轨迹数据集T。在这里，我们将Oldenburg地图均分成100个区域，通过随机算法产生每一个区域的攻击者，每个区域的中心位置作为用户穿越该区域的足迹信息。用户的平均轨迹长度为6，收集到的轨迹集T的总数为15000。

在相同数据集T的情况下，分别采用本方案及对比方案中的匿名算法分别对数据集T进行处理，并根据匿名后的数据效用对匿名结果进行对比分析。

数据效用通过数据损失率UL表示，UL值越大代表数据效用越差，反之，数据效用越好。

通过图1，我们发现本文所提的方案(局部抑制)明显优于对比方案；在用户隐私容忍度设置同为P_br=0.5时，本文所提方案明显提升了数据效用，且随着轨迹集T的增大，数据效用趋向于更好。

现实中用户的隐私需求可能是变化的，通过改变P_br可实现用户的隐私需求，且用户的数量也可能是变化的，因此，我们测试了这两种方案在P_br、|T|同时改变时的匿名结果如图2所示。通过对比我们发现：

1、仅改变P_br时，本文所提方案的UL下降较快，这是因为本文所提方案在每次匿名处理过程中，将“Privacy preservation in the publication of trajectories”中的对整条轨迹记录的抑制改为对轨迹中的某一位置数据的抑制，有效地提升了数据效用。

2、仅改变|T|时，本文所提方案的UL变化较不明显，比较稳定，这是因为随着|T|的增多，导致有问题的投影集相对也增多，但|T|变化较快，此时，对比方案的方法对UL的影响大于对投影集进行局部抑制的方法，因此，本文所提方案稳定性较好。

由图3得知，随着攻击者数量|V|的增加，本文所提方案的数据效用UL优于对比方案的实验结果。对比方案的实验结果变化幅度较大，而本文所提方案的结果变化则较平缓，由此可见，所提方案的稳定性更好。

综上所述当同时改变P_br、|T|时，本文所提方案的实验结果均优于“Privacy preservation in the publication of trajectories”的方案，且本方案明显优于对比方案，且在同等隐私需求的情况下，将匿名后的数据效用提升了近30％。

对于本领域的技术人员来说，可根据以上描述的技术方案以及构思，做出其它各种相应的改变以及变形，而所有的这些改变以及变形都应该属于本发明权利要求的保护范围之内。

Claims

1.基于频率的轨迹抑制数据发布隐私保护的系统，所述匿名服务器设有数据预处理模块，隐私保护模块，数据效用衡量模块，其中

2.根据权利要求1所述的系统，其特征在于，所述隐私保护模块对不满足用户隐私需求的轨迹序列集合进行排序后，可对即将发布的轨迹数据集进行轨迹局部抑制。

3.一种根据权利要求1所述的系统实现抑制数据发布隐私保护的方法，其特征在于，所述方法包括：

S2对所述原始轨迹序列集合进行匿名处理，其中包括：

S4对经过所述匿名处理后的轨迹序列集合可进行发布。

4.根据权利要求3所述的方法，其特征在于，所述匿名处理还包括局部抑制处理，其中：

5.根据权利要求3所述的方法，其特征在于，若所述集合FVP为空集，则表示当前原始轨迹序列集合为安全状态，可进行发布。