CN114091100B

CN114091100B - 一种满足本地差分隐私的轨迹数据收集方法及系统

Info

Publication number: CN114091100B
Application number: CN202111391595.4A
Authority: CN
Inventors: 程祥; 苏森; 杨健宇; 李悦嘉
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2021-11-23
Filing date: 2021-11-23
Publication date: 2024-05-03
Anticipated expiration: 2041-11-23
Also published as: CN114091100A

Abstract

本申请公开了一种满足本地差分隐私的轨迹数据收集方法及系统，本申请实施例提供的方法，首先，将设定的地理区域进行网栅离散化，在地理区域内形成满足本地差分隐私的网栅，以离散用户的轨迹数据；其次，根据形成的网栅，离散化用户的轨迹数据，即将用户的轨迹数据中的每个地理位置替换为该位置所在晶格的索引值；再次，以在网栅中的每个晶格内的用户轨迹数据为样本，学习得到隐马尔科夫模型；最后，从学习得到的隐马尔科夫模型中抽样生成该地理区域的轨迹数据集。由于在用户轨迹数据收集过程中每个用户的轨迹数据都通过最优本地哈希法进行扰动处理，所以解决了用户隐私泄露问题，提供的设定地理区域的轨迹数据集中剔除了用户隐私信息。

Description

一种满足本地差分隐私的轨迹数据收集方法及系统

技术领域

本申请涉及人工智能技术领域，特别涉及一种满足本地差分隐私的轨迹数据收集方法及系统。

背景技术

用户轨迹数据指的是一系列地理位置按时间先后排列而成的序列，其描述用户在地理区域中的移动信息。随着智能移动设备的深入普及，用户轨迹数据已经开始被许多服务提供商广泛地收集，通过分析获取到的用户轨迹数据，服务提供商可以提供更好的用户体验和创造新的盈利机会。例如，通过分析用户的移动模式，服务提供商可以帮助用户合理地规划出行路线，以避免交通拥堵，也能够向商业公司建议在用户经常访问的地点放置广告。然而，用户的轨迹数据可能会包含大量的敏感信息，比如家庭住址或一些敏感地点(如专科医院)的到访记录，如果没有合适的隐私保护机制，直接收集用户的轨迹数据将会把用户的个人隐私置于危险之中，同时也会因为用户不愿再分享轨迹数据而阻碍商业的运营发展。因此，如何设计有效的方法以解决在收集用户轨迹数据时的用户隐私泄露问题已迫在眉睫。

近年来提出的本地差分隐私(Local Differential Privacy)技术为解决上述问题提供了一种可行的方法。与假设存在一个可信的及具有访问用户真实数据权限的数据收集者的传统差分隐私技术不同，本地差分隐私技术无需对数据收集者的可信性做出任何限定。特别地，该技术要求数据贡献者首先向其拥有的数据中添加适量的噪音，然后再将含有噪音的数据发送给数据收集者，以实现对数据贡献者的隐私保护。但是，本地差分隐私技术并没有应用到用户轨迹数据的收集方法中，无法解决在用户轨迹数据收集过程中的用户隐私泄露问题。

发明内容

有鉴于此，本申请实施例提供一种满足本地差分隐私的轨迹数据收集方法及系统，该方法能够解决在用户轨迹数据收集过程中的用户隐私泄露问题。

本申请实施例是这样实现的：

本申请实施例提供一种满足本地差分隐私的轨迹数据收集方法，所述方法包括：

将设定的地理区域进行网栅离散化，在地理区域内形成满足本地差分隐私的网栅；

基于所述形成的网栅，离散化用户的轨迹数据，将用户的轨迹数据中的每个地理位置以所述地理位置所在晶格的索引值标识；

以在网栅中的每个晶格内的用户轨迹数据为样本，学习得到隐马尔科夫模型；

从学习得到的隐马尔科夫模型中抽样生成该地理区域的轨迹数据集。

本申请实施例还提供一种满足本地差分隐私的轨迹数据收集系统，其特征在于，所述系统包括：多个数据贡献实体及一数据收集实体，其中，

数据收集实体，用于将地理区域进行网栅离散化，在地理区域内形成网栅；基于所述形成的网栅，离散化从数据贡献实体接收的用户的轨迹数据，将用户的轨迹数据中的每个地理位置以所述地理位置所在晶格的索引值标识；以在网栅中的每个晶格内的用户轨迹数据作为样本，学习得到隐马尔科夫模型；从学习得到的隐马尔科夫模型中抽样生成该地理区域的轨迹数据集；

数据贡献实体，用于提供用户的轨迹数据。

如上所见，本申请实施例提供的方法，首先，将设定的地理区域进行网栅离散化，在地理区域内形成满足本地差分隐私的网栅，以离散用户的轨迹数据；其次，根据形成的网栅，离散化用户的轨迹数据，即将用户的轨迹数据中的每个地理位置替换为该位置所在晶格的索引值；再次，以在网栅中的每个晶格内的用户轨迹数据为样本，学习得到隐马尔科夫模型；最后，从学习得到的隐马尔科夫模型中抽样生成该地理区域的轨迹数据集。由于在用户轨迹数据收集过程中每个用户的轨迹数据都通过最优本地哈希法进行扰动处理，所以解决了用户隐私泄露问题，提供的设定地理区域的轨迹数据集中剔除了用户隐私信息。

附图说明

图1为本申请提供的满足本地差分隐私的轨迹数据收集场景示意图；

图2为本申请提供的满足本地差分隐私的轨迹数据收集方法流程图；

图3为本申请提供的满足本地差分隐私的轨迹数据收集系统结构示意图；

图4为本申请实施例在不同的ε下，PrivTC方法与所有基线方法的对比结果示意图；

图5为本申请实施例在随t变化的过程中，PrivTC方法与所有基线方法的对比结果示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含。例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他步骤或单元。

下面以具体实施例对本申请的技术方案进行详细说明。下面几个具体实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

从背景技术可以看出，目前尚未有方法能够解决收集轨迹数据过程中的用户隐私保护问题。本申请实施例为了解决收集轨迹数据过程中可能导致的用户隐私泄露问题，提出了满足本地差分隐私的轨迹数据收集方法，称之为PrivTC方法。

本申请提出的方法在轨迹数据收集过程中，不仅保证对每个用户满足所设置的隐私预算值ε的本地差分隐私信息，而且保证数据收集者所收集的轨迹数据具有较高的数据效用。

为了对本申请实施例提出的方法描述清楚，定义本申请实施例应用到的符号。

表1符号列表

图1为本申请提供的满足本地差分隐私的轨迹数据收集场景示意图。如图所示，该场景主要涉及用户和数据收集者两种角色，用户即是数据贡献者。多个用户通过网络传输自身的轨迹数据，数据收集者通过数据收集平台接入到网络中，收集用户的轨迹数据，并作为轨迹数据集存储。在该场景中，假定存在一个二维地理区域。一个地理位置l由区域/>里的经度和纬度构成。令n代表用户总数。第i个用户的轨迹数据是一个长度为t的地理位置的序列，被表示为/>其中，/>代表T_i在第j个时间节点上的地理位置。数据收集者通过数据收集平台经网络收集每个用户的轨迹数据，从而得到轨迹数据集。数据收集者可以直接利用收集得到的轨迹数据集进行分析，也可以将其开放给第三方。

在数据收集过程中，对于每个用户，存在以下三种角色可能会对其隐私造成威胁：1)数据收集者；2)其他用户；3)除数据收集者和其他用户外的任何潜在的攻击者。为了从根本上对每个用户提供严格可证明的隐私保护，本申请实施例采用满足本地差分隐私的轨迹数据收集方法对用户的轨迹数据进行收集。

具体地说，满足本地差分隐私的轨迹数据收集方法包括：第一步骤，将设定的地理区域进行网栅离散化，在地理区域内形成满足本地差分隐私的网栅，以离散用户的轨迹数据；第二步骤，根据形成的网栅，离散化用户的轨迹数据，即将用户的轨迹数据中的每个地理位置替换为该位置所在晶格的索引值；第三步骤，以在网栅中的每个晶格内的用户轨迹数据为样本，学习得到隐马尔科夫模型；第四步骤，从学习得到的隐马尔科夫模型中抽样生成该地理区域的轨迹数据集。其中，第一步骤中将地理区域进行网栅离散化时需要满足本地差分隐私，采用的方法称为满足本地差分隐私的网栅构建方法，定义为PrivAG(PrivateAdaptive Grid)方法，以在给定的地理区域上划分成一个合理的网栅。第三步骤采用的是满足本地差分隐私的谱学习方法，定义为PrivSL方法，从根据网栅离散化后的用户轨迹数据中学习出隐马尔可夫模型。

图2为本申请实施例提供的满足本地差分隐私的数据收集方法流程图，其具体步骤包括：

步骤201、将设定的地理区域进行网栅离散化，在地理区域内形成满足本地差分隐私的网栅；

步骤202、基于所述形成的网栅，离散化用户的轨迹数据，将用户的轨迹数据中的每个地理位置以所述地理位置所在晶格的索引值标识；

步骤203、以在网栅中的每个晶格内的用户轨迹数据为样本，学习得到隐马尔科夫模型；

步骤204、从学习得到的隐马尔科夫模型中抽样生成该地理区域的轨迹数据集。

从上述方法可以看出，本申请提出的PrivTC方法包括了PrivAG方法和PrivSL方法。本申请提出的PrivTC方法共包含三个阶段，在PrivTC方法实现过程中，随机将n个用户分成两个用户小组U₁和用户小组U₂，分别用于报告阶段1和阶段2所使用的相关信息，用户小组U₁和用户小组U₂中的用户不重复。

阶段1：设定地理区域内的网栅构建

在该阶段中，通过与用户小组U₁中的用户交互，数据收集者采用PrivAG方法，将给定的二维地理区域划分成多个晶格，构建一个网栅G。

数据收集者将所构建的网栅G广播给另一个用户小组U₂。

阶段2：隐马尔可夫模型学习

在该阶段中，根据网栅G，小组U₂里的每个用户离散化自身的轨迹数据，即将轨迹数据里的每个地理位置替换为该位置所在晶格的索引值。数据收集者采用PrivSL方法，从这些用户离散化的轨迹数据中学习出隐马尔可夫模型。

阶段3：地理区域内的数据轨迹生成

数据收集者从学习出的隐马尔可夫模型中独立地抽样生成n条轨迹数据，组成一个合成的轨迹数据集。

以下对这三个阶段详细说明。

阶段1，采用满足本地差分隐私的网栅构建方法，即PrivTC方法，进行设定地理区域的网栅离散化，在地理区域内形成满足本地差分隐私的多个晶格。

在给定的二维地理区域上构建高质量的网栅能够帮助用户合理地离散化其自身的轨迹数据，并提高后续生成的合成轨迹数据集的效用。

一种直观的构建网栅的方法是将地理区域均匀地划分成一个由g×g个相同大小的晶格构成的网栅。然而，由于地理区域/>中的每个子区域均被同等地对待，这种方法将会导致不合理的划分，从而丢失了所收集的轨迹数据的特征信息，降低了生成的合成轨迹数据集的效用。特别地，对于一个包含很少量地理位置的稀疏区域，该方法可能导致对该区域的过度划分，从而产生了过多的空晶格；而对于一个包含大量地理位置的稠密区域，该方法可能导致对该区域的不充分划分，使得众多用户离散化后的轨迹数据不可区分。

因此，本申请提出了PrivAG方法，其主要思想是首先在设定的地理区域上放置一个粗粒度的网栅G₁，然后基于G₁里每个晶格的频率进一步对该晶格进行划分，从而构建最终的网栅G。

具体地讲，在PrivAG方法中，数据收集者首先将设定的地理区域均匀地划分成大小为g₁×g₁的网栅G₁，然后将其广播给用户小组U₁中的每个用户。基于接收到的网栅G₁，用户小组U₁里每一个第i个用户将其轨迹/>离散化为/>其中是位置/>所在晶格的索引值。

随后，数据收集者运用最优本地哈希(OLH，Optimized Local Hashing)机制从用户小组U₁中估算网栅G₁里每个晶格的频率。更具体地讲，数据集收集者将用户小组U₁继续等分成t个子小组，其中每个子小组报告离散化的轨迹数据中一个时间节点上的信息。然后，对于每一个第j个时间节点，数据收集者运用OLH机制从第j个子小组离散化的轨迹数据中估算网栅G₁里第k个晶格的频率综合考虑，网栅G₁里第k个晶格的频率估算值f_k被计算为所有t个时间节点上频率的平均值，采用的公式为：

最后，对于网栅G₁里第k个晶格，数据收集者根据其频率f_k进一步将其划分为个相同大小的晶格。

其中，OLH机制适用于处理较大的取值空间。步骤如下：

1)在OLH机制中，用户u_i首先从一系列哈希函数中随机选择一个哈希函数H_i。利用这个哈希函数，用户u_i将自己的输入v从原始的取值空间[c]映射到一个较小的取值空间[c’]中的取值H_i(v)。

2)用户u_i使用GRR机制对哈希函数映射后的值H_i(v)进行扰动，即y_i＝GRR(H_i(v))，其中GRR(·)的定义如下所示：

3)用户u_i将<H_i,y_i>报告给数据收集者。

可以看出，对设定地理区域进行网栅离散化时，网栅粒度的选择至关重要。由于网栅粒度g₁和网栅粒度g₂对所构建网栅的效用有直接影响，本申请实施例提出了下面的指导规则，以合理地选择网栅力度。

指导规则：地理区域首先应该被划分为g₁×g₁的网栅G₁，其中g₁应设置为：

对于网栅G₁里的每一个第k个频率为f_k的晶格(1≤k≤g₁×g₁)，被进一步划分为个相同大小的晶格，其中/>应设置为：

其中，n是地理区域内的用户总数；t是轨迹长度；ε是设置的隐私预算值；α是设置的依赖于轨迹数据集的小常数；σ是一个常数，表示用户小组U₁中的用户数量占用户总数的比例，即

本申请实施例的实验结果表明将α的取值设置在[0.01,0.02]内和将σ的取值设置在[0.1,0.3]内通常可以在不同的轨迹数据集上达到良好的性能。在这里，设置α＝0.02和σ＝0.2。

下面给出支持该指导规则的分析。本申请实施例通过网栅区间查询结果的准确性来评估所构建网栅的质量。特别地，假设数据收集者将使用OLH机制从用户根据网栅离散化后的轨迹数据中估算网栅里每一个晶格的频率。给定一个区间查询q，其在地理区域中限定了一个矩形，并以该矩形内地理位置的频率之和作为结果。为了计算查询q的结果f_q，将检查网栅里的所有晶格。如果一个晶格完全包含在查询矩形内，则将其频率加到f_q中；如果一个晶格部分包含在查询矩形内，首先假设该晶格内的地理位置是均匀分布的，并以此估计该晶格与查询矩形相交部分里地理位置的频率之和，然后将这个和值加到f_q中。

在估算的结果f_q中，共存在三种误差，包括抽样误差，噪声误差和非均匀性误差。抽样误差的产生是由于用户被分成了多个小组，并且从一个小组中估算的频率代替从所有用户中估算的频率，因为一个小组内用户的轨迹数据分布可能和所有用户的轨迹数据的整体分布不同。噪声误差是由于在估算过程中使用OLH机制以满足本地差分隐私而产生的。

抽样误差与噪声误差能被放在一起量化。首先分析在第j个时间节点上网栅G₁里第k个晶格的估算频率的平方误差，其中/>是从第j个小组的离散化的轨迹中通过OLH机制得到的。假设在估算过程中，共有n个用户，并且被分成了t个小组，其中每个小组报告一个时间节点上的信息。然后，可以推断出/>的抽样和噪声平方误差的期望值近似为：

因此，网栅G₁里第k个晶格的整体估算频率f_k具有的方差为：

查询q的估算结果f_q中包含的总的抽样和噪声平方误差等于完全包含在其查询矩形里的晶格的估算频率的方差之和。

非均匀性误差是由那些部分包含在查询矩形中的晶格产生的。由于网栅中一个晶格里的所有地理位置是放在一起报告的，当通过这种晶格计算查询的结果时，数据收集者需要假设这些晶格里地理位置的频率是均匀分布的，以计算这些晶格与查询矩形相交的区域里地理位置的频率之和。精确地计算非均匀性误差需要根据轨迹数据集的真实分布，而在本申请的场景中，该真实分布是不允许数据收集者访问的。所以，本申请决定在后续的分析中计算近似的非均匀性误差。

直观上，对于一个细粒度的网栅，该查询将包含更多的晶格，导致更大的抽样误差和噪声误差，以及较低的非均匀性误差；而对于一个粗粒度的网栅，查询将包含更少的晶格，导致更小的抽样误差和噪声误差，以及较高的非均匀性误差。因此，选择合适的网栅粒度可以被看作是寻找这两种类型误差之间的平衡点。

在本申请中，对网栅粒度g₁的取值进行分析。为了分析的g₁取值，本申请假设数据收集者将会从n个用户中估算大小为g₁×g₁的网栅里所有晶格的频率。对于一个区间查询q，其选择的区域占整个地理区域的比例为r，则该查询大约包含r·(g₁)²个晶格。当计算查询q的结果时，总的抽样和噪声的平方误差为

非均匀性误差与落在查询矩形四条边上的晶格里地理位置的频率之和成正比。对于查询q的矩形，其每条边上存在个晶格，因此四条边上共有/>个晶格。期望的包含在这些晶格里的地理位置的频率之和为/>假设平均情况下非均匀性误差为/>其中α是某个小常数，则它的平方误差为/>

为了最小化两种平方误差之和本申请实施例应将网栅粒度g₁设置为/>

在本申请实施例中，对网栅粒度g₂进行分析。为找到合适的g₂，本申请实施例需要假设数据收集者将从用户小组U₂里的(1-σ)·n个用户中估算最后的网栅G里所有晶格的频率，因为用户小组U₁里的用户已经参与估算了网栅G₁里晶格的频率。

与g₁的分析类似，对于网栅G₁里的第k个晶格，其频率为f_k，并将被进一步划分成个晶格，查询q的矩形大约包含/>个晶格。因此，总的抽样和噪声的平方误差为/>

对于非均匀性误差，查询矩形的四条边上共包含个晶格，则这些晶格里地理位置的频率之和的期望值为/>非均匀性误差的平方误差为其中α是设置的和g₁的分析中相同的小常数。

为了最小化两种平方误差之和，采用的公式为：

的值应设置为/>

阶段2，以所收集的在网栅中的每个晶格内的用户轨迹数据为样本，学习得到隐马尔科夫模型。

在该阶段中，就是进行满足本地差分隐私的谱学习方法。

根据所构建的网栅G，用户小组U₂里的每一个第i个用户将其原始轨迹离散化为/>其中/>是位置/>所在晶格的索引值。为了从用户小组U₂离散化的轨迹数据中学习出隐马尔可夫模型，本申请提出了PrivSL方法。在给出PrivSL方法的实施过程之前，先介绍无隐私保护的谱学习方法。

在无隐私保护的谱学习方法中，对于用户小组U₂里的每一个第i个用户，首先从自身离散化的轨迹中随机地选取一个三元组其中(x₁,x₂,x₃)是三个相邻的时间节点。然后，对于这些三元组，数据收集者计算三个集合的概率：

S₁＝{Pr[T^G(x₁)＝d₁]|d₁∈I^G}，

S₂＝{Pr[T^G(x₂)＝d₂,T^G(x₁)＝d₁]|d₁,d₂∈I^G}，

S₃＝{Pr[T^G(x₃)＝d₃,T^G(x₂)＝d₂,T^G(x₁)＝d₁]|d₁,d₂,d₃∈I^G}， (7)

其中，I^G是网栅G里所有晶格的索引值集合，Pr表示进行概率计算。

通过利用S₁∪S₂∪S₃中的概率，数据收集者分别构建一个长度为|I^G|的向量P₁，一个大小为|I^G|×|I^G|的矩阵P_2,1，一个由大小为|I^G|×|I^G|的矩阵组成的集合{P_3,y,1|y∈I^G}。特别地，P₁的第d₁个值是：

P₁[d₁]＝Pr[T^G(x₁)＝d₁]； (8)

矩阵P_2,1的第d₂行和第d₁列的值为：

P_2,1[d₂,d₁]＝Pr[T^G(x₂)＝d₂,T^G(x₁)＝d₁]； (9)

矩阵P_3,y,1的第d₃行和第d₁列的值为：

P_3,y,1[d₃,d₁]＝Pr[T^G(x₃)＝d₃,T^G(x₂)＝y,T^G(x₁)＝d₁]. (10)

根据给定的隐状态的数量h，数据收集者计算矩阵P_2,1的奇异值分解(SVD)结果，从而获得对应于隐状态的数量h个最大奇异值的左奇异向量矩阵M。数据收集者计算谱学习参数：

这些参数将被用于生成轨迹数据集。隐状态的数量h的取值相对不太重要。本申请发现只要隐状态的数量h大于10，得到的结果几乎是相同的。因此，在实验中将隐状态的数量h设置为10。

本申请将描述如何将无隐私保护的谱学习方法转化为满足本地差分隐私的谱学习方法。在无隐私保护的谱学习方法中，数据收集者和用户之间仅有的交互过程是收集S₁∪S₂∪S₃中的概率。因此，为了使原方法满足本地差分隐私，本申请仅需要令数据收集者在满足本地差分隐私的前提下收集S₁∪S₂∪S₃即可。

为达到此目的，采用的方法是令数据收集者使用OLH机制收集S₃，然后通过累加过程，从S₃中推导出S₁和S₂：

然而，由于上述的累加过程造成了S₃中噪声的叠加，这种策略将会导致S₁和S₂中包含大量的噪声。

为了解决这个缺陷，本申请实施例提出进一步将用户小组U₂等分成三个子小组，分别用于报告S₁，S₂和S₃的信息。通过避免简单策略中的累加过程，这个策略能够大幅度地提高所收集到的S₁∪S₂∪S₃中概率的准确性。然而，由于本申请是使用OLH机制来保证隐私，所收集到的概率可能是负值，从而违背了先验知识，即概率的值是非负的。另外，由于是分别通过OLH机制获得的，所收集到的这三个集合的概率可能不能满足相互之间天然的依赖关系，即公式(12)展示的累加关系，从而导致了非一致性问题。为了进一步提高所收集到的概率的准确性，本申请令数据收集者采用下述方式对所收集到的这三个集合中的概率进行后处理，以去除负值和它们之间的非一致性。

针对所收集到概率的后处理。该后处理过程共包含两种基本步骤：

1)去除负值步骤。在该步骤中，数据收集者利用Norm-Sub方式分别处理S₁，S₂和S₃。它的主要思想是首先将所有的负值变为0，然后将正值的总和与1之间的差异均等地添加到每个正值中。这个过程一直循环进行，直到所有的概率是非负的，并且相加为1。

2)去除非一致性步骤。为了去除S₁，S₂和S₃之间的非一致性，本申请实施例需要分别针对时间节点x₁和x₂进行一致性操作，以分别使x₁和x₂上的信息满足一致性。特别地，时间节点x₁与集合X₁＝{S₁,S₂,S₃}相关；时间节点x₂与集合X₂＝{S₂,S₃}相关。由于时间节点x₃仅与S₃相关，所以不需要针对x₃进行一致性操作。

本申请实施例描述针对时间节点x的一致性操作，以使x上的信息满足一致性。对于每一个d∈I^G，定义为S_i里与T^G(x)＝d相关的概率之和。本申请的目标是使所有的/>满足一致性。为了达到这个目标，首先计算它们的加权平均值/> 其中，θ_i的最优值是通过最小化W(x,d)的方差获得的。具体地，该方差为/>其中，C_i是集合S_i的一个子集，由与/>相关的概率构成；Var₀是估计单个概率的基准方差。显然，有|C₁|＝1,|C₂|＝|I^G|和|C₃|＝|I^G|²。设置/>以获得最优的加权平均值W(x,d)。在计算出W(x,d)后，将每一个/>的值更新为W(x,d)。具体的更新过程为，对于C_i中的每一个概率，将改变量/>加入其中。

为了去除非一致性，数据收集者可以首先将上述的一致性操作应用于x₁，然后应用于x₂。后一步针对x₂上的一致性操作不会破坏先前建立在x₁上的一致性。需要注意的是，去除一致性可能导致负值的产生，反之亦然。为了解决这个问题，本申请实施例多轮次地交替使用去除负值步骤和去除非一致性步骤。

综上，在PrivSL方法中，用户小组U₂里的用户被进一步等分成三个子小组，分别报告有关S₁，S₂和S₃的信息。在通过使用OLH机制收集到S₁∪S₂∪S₃里的概率之后，数据收集者对概率进行后处理，以去除负值和非一致性，并最后用这些概率进行隐马尔科夫模型的学习，计算得到谱学习参数，用于后续的轨迹数据集合的生成。

阶段3，从学习得到的隐马尔科夫模型中抽样生成该地理区域的轨迹数据集。

为了生成一条轨迹数据收集者首先从学习出的以为参数的隐马尔可夫模型中，生成它的离散化轨迹/>特别地，/>中的元素是相继被抽样生成的。其中，第一个元素/>是从分布

中抽样生成的。后续的第k个元素是从分布

中抽样生成的，其中，

为了从中生成/>对于/>里的每一个第k个位置l_k，数据收集者从网栅G里第个晶格中随机地选取一个地理位置，并将l_k设置为该地理位置的坐标。

这样，本申请实施例就实现了满足本地差分隐私的轨迹数据收集方法。

图3为本申请提供的满足本地差分隐私的轨迹数据收集系统结构示意图，该系统包括：多个数据贡献实体及一数据收集实体，其中，

数据贡献实体，用于提供用户的轨迹数据。

在这里，数据贡献实体实际就是多个用户。

本申请实施例还对满足本地差分隐私的轨迹数据收集方法进行了实验，得到实验结果。对实验结果进行以下分析。

本申请是首次提出并解决了满足本地化差分隐私的轨迹数据收集问题。因此，将PrivTC方法与下面三个精心设计的基线方法进行对比。

UG：该方法是为了验证PrivAG方法的有效性。与PrivTC方法不同，在UG中，数据收集者仅将给定的地理区域均匀地划分成一个g₁×g₁的网栅G₁，其中网栅粒度g₁是按照上述的指导规则设定的。数据收集者采用PrivSL方法从用户根据网栅G₁离散化的轨迹数据中学习出隐马尔可夫模型。

NSL：该方法用于评估PrivSL方法的有效性。NSL方法与PrivSL方法的区别在于NSL采用上述的简单策略来收集S₁∪S₂∪S₃中的概率，即仅仅使用OLH机制收集S₃，然后从中推导出S₁和S₂。

Ngram：基于另一个经典的用于对轨迹数据进行建模的n-gram模型，设计了基线方法Ngram，用以评估谱学习下的隐马尔可夫模型的有效性。Ngram方法与PrivTC方法的区别是，在Ngram中，通过使用PrivAG构建网栅G之后，数据收集者利用n-gram模型来建模用户根据G离散化的轨迹数据，然后从学习出的n-gram模型中抽样生成轨迹数据。在这里，采用3-gram模型对离散化的轨迹数据进行建模。由于构建3-gram模型仅需要S₃中的概率，采用简单策略收集S₃，以满足本地化差分隐私。

为了采用指导规则配置PrivTC方法，NSL和Ngram等方法中的PrivAG方法，首先按照指导规则的推荐，设置σ＝0.2和α＝0.02。然后，当处理一个轨迹数据集时，按照指导规则中的公式，利用该轨迹数据集的公开信息，包括用户数n和隐私预算ε，推导出g₁和g₂的值。

通过与UG，NSL和Ngram相比较，可以确定我们提出的PrivTC方法在数据收集者所收集的数据的效用上有明显的优势。为了更好地说明本发明方法的优点，我们选择能够度量真实轨迹数据集D_r和合成轨迹数据集D_s之间差别的评测指标。具体地，分别采用下述三个评测指标：

Query MAE。给定一个区间查询的集合Q，指标Query Mean Absolute Error(QueryMAE)的计算方式为：

其中，和/>分别是查询q的估算结果和真实结果；函数q(·)返回一个数据集中包含在q的查询矩形中的位置数量；n是用户总数；t是轨迹长度。为了全面地评估整个二维区域/>内的区间查询，在实验中，将地理区域/>均匀地划分为一个大小为15×15的测试网栅G_t，然后用G_t里的每一个晶格定义一个区间查询。

FP Similarity。该指标测量数据集D_r和D_s的前k个频繁模式的相似性。为了获得轨迹数据集D的前k个频繁模式，也将给定的二维区域均匀地划分为一个大小为15×15的测试网栅D_t，然后根据G_t将数据集D里的轨迹离散化，最后挖掘出支持度最高的前k个频繁模式，并用/>表示。特别地，定义

其中F1(·)是F1-measure，即精确率和召回率的谐波均值。在实验中，我们所考虑的模式长度为两个晶格，并将k设置为100。

Distance Error。定义轨迹的距离为所有相邻时间节点上的地理位置之间的欧几里得距离的总和。在真实轨迹数据集D_r中最大的轨迹距离的基础上，将该最大距离划分成20个宽度相等的距离区间。然后，对于两个数据集D_r和D_s中的每一个，通过计数每个距离区间里的轨迹数量，来生成一个轨迹距离的直方图。令H(D_r)和H(D_s)分别表示数据集D_r和D_s的直方图，则

Distance Error＝JSD(H(D_r),H(D_s))， (18)

其中JSD(·)是JS散度(Jensen-Shannon divergence)。

需要注意的是，指标FP Similarity的值在0和1之间。FP Similarity的值越大，真实数据集和合成数据集之间的差别越小，也就意味着合成数据集的效用越高。相反地，Query MAE或Distance Error的值越小，各方法的性能越好。

具体的实验的设置如下。

本申请实施例使用两组真实的数据集Gowalla和Taxi测试方法的性能。这两组数据集中数据的具体特征如表2所示：

表2数据集特征

数据集	用户数	轨迹长度
			Gowalla	200,000	3～15
Taxi	500,000	3～15

下面通过分析实验数据来说明PrivTC算法的性能。

图4为本申请实施例在不同的ε下，PrivTC方法与所有基线方法的对比结果示意图。与预期一致，可以观察到，所有方法的准确性随着ε的增大而逐渐升高。在所有的方法中，发现NSL和Ngram在三种评估指标上的结果相近。这是因为NSL采用简单策略，使用OLH机制仅仅收集S₃中的分布，然后从中推导出S₁和S₂，从而导致了S₁和S₂中包含了大量的噪声，并因此抵消了隐马尔可夫模型建模轨迹数据的优势。对于UG，其FP Similarity的结果明显低于其他的方法，使得它的缺陷更加明显，即均匀地划分二维地理区域是不够充分的，会丢失原始轨迹数据集的特征信息。

图4的结果表明，相比于所有的基线方法，PrivTC方法具有明显的优势。与UG相比，PrivTC方法能够达到更高的准确性，从而验证了采用PrivAG方法适应性地划分二维地理区域的有效性。而且，可以看到PrivTC方法的性能远好于NSL，从而验证了PrivSL所采用的收集分布信息的策略对于简单策略的提升。另外，与Ngram相比，PrivTC方法的优势更加突出。这是因为在PrivTC中，与谱学习结合的隐马尔可夫模型比Ngram能更加有效地对轨迹数据进行建模。观察到PrivTC方法的结果中有一些跳跃点。这是因为PrivTC方法中调用的PrivAG方法是基于ε的取值和用户总数n来选择网栅粒度的。虽然这些选择通常能够产生很好的结果，但是它们并不能保证对所有的数据集和ε都是最优的。

图5为本申请实施例在随t变化的过程中，PrivTC方法与所有基线方法的对比结果示意图。从图5中，可以看出，所有方法的效用随t的增大而轻微降低。原因为：当t较大的时候，用户从完整轨迹数据中随机采样三元组以用于模型学习的过程引入了偏差，因为三元组的分布被用于表示完整轨迹的分布。

在所有方法中，PrivTC方法一直表现最优，尤其是在Query MAE上，这验证了其在处理长轨迹时的良好扩展性。特别地，对于Distance Error，我们可以看到当t相对较小时，PrivTC对于Ngram的优势变得更加显著，这验证了其在处理短轨迹时的有效性。

本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，即使这样的组合或结合没有明确记载于本申请中。特别地，在不脱离本申请精神和教导的情况下，本申请的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，所有这些组合和/或结合均落入本申请公开的范围。

本文中应用了具体实施例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思路，并不用于限制本申请。对于本领域的技术人员来说，可以依据本申请的思路、精神和原则，在具体实施方式及应用范围上进行改变，其所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种满足本地差分隐私的轨迹数据收集方法，其特征在于，所述方法包括：

从学习得到的隐马尔科夫模型中抽样生成该地理区域的轨迹数据集；

所述学习得到隐马尔科夫模型包括：

从所述地理区域内的总用户中随机选取第二用户小组U₂，所述第二用户小组U₂中的用户与从所述总用户中随机选取第一用户小组U₁的用户不相同；

对于用户小组U₂里的每一个第i个用户，从自身离散化的轨迹数据中随机地选取一个三元组其中(x₁,x₂,x₃)是三个相邻的时间节点，其中/>是位置/>所在晶格的索引值；

将用户小组U₂等分成三个子小组，分别用于报告生成S₁，S₂和S₃的离散化的轨迹数据，采用公式计算S₁，S₂和S₃：

S₁＝{Pr[T^G(x₁)＝d₁]|d₁∈I^G}，

S₂＝{Pr[T^G(x₂)＝d₂,T^G(x₁)＝d₁]|d₁,d₂∈I^G}，

S₃＝{Pr[T^G(x₃)＝d₃,T^G(x₂)＝d₂,T^G(x₁)＝d₁]|d₁,d₂,d₃∈

I^G}，

其中，I^G是网栅G里所有晶格的索引值集合，Pr表示进行概率计算；

计算得到S₁∪S₂∪S₃中的概率；

通过利用S₁∪S₂∪S₃中的概率，分别构建一个长度为|I^G|的向量P₁，一个大小为|I^G|×|I^G|的矩阵P_2,1，一个由大小为|I^G|×|I^G|的矩阵组成的集合{P_3,y,1|y∈I^G}，其中，P₁的第d₁个值是：

P₁[d₁]＝Pr[T^G(x₁)＝d₁]；

矩阵P_2,1的第d₂行和第d₁列的值为：

P_2,1[d₂,d₁]＝Pr[T^G(x₂)＝d₂,T^G(x₁)＝d₁]；

矩阵P_3,y,1的第d₃行和第d₁列的值为：

P_3,y,1[d₃,d₁]＝Pr[T^G(x₃)＝d₃,T^G(x₂)＝y,T^G(x₁)＝

d₁].

根据给定的隐状态的数量h＝10，计算矩阵P_2,1的奇异值分解SVD结果，获得对应于隐状态的数量h个最大奇异值的左奇异向量矩阵M；

{N_y＝M^TP_3,y,1(M^TP_2,1)⁺|y∈I^G}，

所述左奇异向量矩阵M被用于生成轨迹数据集。

2.如权利要求1所述的方法，其特征在于，所述在地理区域内形成满足本地差分隐私的网栅包括：

在设定的地理区域中以第一网栅粒度g₁进行粗划分，得到第一网栅G₁；

针对第一网栅G₁中的每个晶格，根据计算得到的所述晶格的频率确定第二网栅粒度g₂，以第二网栅粒度g₂对所述晶格进行划分，在地理区域内形成满足本地差分隐私的网栅。

3.如权利要求2所述的方法，其特征在于，所述得到第一网栅G₁包括：

将所述地理区域划分为g₁×g₁的第一网栅G₁，其中第一网栅粒度g₁采用

设置；

其中，n是所述地理区域内的用户总数；ε是设置的隐私预算值；α设置为0.02。

4.如权利要求2所述的方法，其特征在于，所述根据计算得到的所述晶格的频率确定第二网栅粒度g₂，以第二网栅粒度g₂对所述晶格进行划分，在地理区域内形成满足本地差分隐私的网栅包括：

将确定的网栅G₁，广播给从所述地理区域内的总用户中随机划分的第一用户小组U₁中的每个用户，以使第一用户小组U₁里每一个第i个用户将其轨迹数据离散化为/>其中/>是位置/>所在晶格的索引值，/>代表T_i在第j个时间节点上的地理位置；

采用最优本地哈希OLH机制从用户小组U₁提供的离散化计算得到每个晶格的频率；

采用确定第二网栅粒度g₂，

其中，n是所述地理区域内的用户总数；ε是设置的隐私预算值；α设置为0.02，及σ为表示从总用户中随机划分的用户小组U₁中的用户数量占用户总数的比例，设置为0.2；

对于网栅G₁里第k个晶格，根据其频率f_k将其划分为个相同大小的晶格，在地理区域内形成满足本地差分隐私的网栅。

5.如权利要求4所述的方法，其特征在于，所述采用OLH机制从用户小组U₁提供的离散化计算得到每个晶格的频率包括：

将用户小组U₁等分成t个子小组，其中每个子小组内的用户报告离散化的轨迹数据中一个时间节点上的信息；

对于每一个第j个时间节点，通过OLH机制从第j个子小组离散化的轨迹数据中估算网栅G₁里第k个晶格的频率网栅G₁里第k个晶格的频率估算值f_k被计算为所有t个时间节点上频率的平均值。

6.如权利要求1所述的方法，其特征在于，所述计算得到S₁∪S₂∪S₃中的概率之后，所述方法还包括：

对计算得到S₁∪S₂∪S₃中的概率进行后处理过程。

7.如权利要求6所述的方法，其特征在于，所述进行后处理过程包括：

对计算得到S₁∪S₂∪S₃中的概率进行去除负值过程或/和去除非一致性过程。

8.如权利要求1～7任一所述的方法，其特征在于，所述从学习得到的隐马尔科夫模型中抽样生成该地理区域的轨迹数据集包括：

学习出的以为参数的隐马尔可夫模型中，生成它的离散化轨迹中的元素是相继被抽样生成的;其中，第一个元素/>是从分布

中抽样生成的；后续的第k个元素是从分布

中抽样生成的，其中，

对于里的每一个第k个位置l_k，从网栅G里第/>个晶格中随机地选取一个地理位置，并将l_k设置为该地理位置的坐标。

9.一种满足本地差分隐私的轨迹数据收集系统，其特征在于，所述系统包括：多个数据贡献实体及一数据收集实体，其中，

数据贡献实体，用于提供用户的轨迹数据；

所述学习得到隐马尔科夫模型包括：

S₁＝{Pr[T^G(x₁)＝d₁]|d₁∈I^G}，

S₂＝{Pr[T^G(x₂)＝d₂,T^G(x₁)＝d₁]|d₁,d₂∈I^G}，

I^G}，

计算得到S₁∪S₂∪S₃中的概率；

P₁[d₁]＝Pr[T^G(x₁)＝d₁]；

矩阵P_2,1的第d₂行和第d₁列的值为：

P_2,1[d₂,d₁]＝Pr[T^G(x₂)＝d₂,T^G(x₁)＝d₁]；

矩阵P_3,y,1的第d₃行和第d₁列的值为：

P_3,y,1[d₃,d₁]＝Pr[T^G(x₃)＝d₃,T^G(x₂)＝y,T^G(x₁)＝

d₁].

{B_y＝M^TP_3,y,1(M^TP_2,1)⁺|y∈I^G}，

所述左奇异向量矩阵M被用于生成轨迹数据集。