CN112948872B

CN112948872B - 一种基于分段聚类的路网轨迹语义隐私保护方法

Info

Publication number: CN112948872B
Application number: CN202110141538.4A
Authority: CN
Inventors: 徐红云; 陆涛; 田岑熙; 蒋睿; 旷勇
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-02-02
Filing date: 2021-02-02
Publication date: 2023-03-24
Anticipated expiration: 2041-02-02
Also published as: CN112948872A

Abstract

本发明公开了一种基于分段聚类的路网轨迹语义隐私保护方法，包括步骤：1)预处理初始轨迹数据集，对轨迹进行重采样操作；2)基于MDL(最小描述长度)原则，对轨迹进行分段划分，获得轨迹分段数据集；3)基于路网距离对轨迹分段数据集中的轨迹分段进行聚类，形成分段类；4)确定分段类的路网领域，统计分段类的语义位置分布；5)基于分段类的语义位置分布，启发式生成匿名分段集，用匿名分段集代替单个轨迹进行数据发布，实现路网轨迹语义隐私保护。本发明用匿名分段集合替代单个轨迹进行数据发布，保护轨迹的语义隐私，将轨迹分段、聚类和启发式算法结合起来，提高匿名成功率和语义隐私保护效果，改善匿名数据质量。

Description

一种基于分段聚类的路网轨迹语义隐私保护方法

技术领域

本发明涉及网络安全和隐私保护的技术领域，尤其是指一种基于分段聚类的路网轨迹语义隐私保护方法。

背景技术

随着定位技术的发展和移动终端设备的普及，越来越多的时空位置数据被收集，作为轨迹数据存储。轨迹数据拥有丰富的信息，发布这些数据，对交通监控、城市规划等领域具有重要应用价值。然而轨迹数据和个人信息紧密相关，不经过保护处理直接发布轨迹数据，会造成严重的隐私泄露。

现有的k匿名保护模型泛化轨迹，让整条轨迹或单个轨迹点加入有至少k个用户的匿名集中。这类方案存在三种问题，导致匿名成功率低，语义保护效果弱，匿名数据质量差。一是忽视轨迹自身的状态，当一条长轨迹移动方向或模式发生较大变化时，需要对轨迹做分段处理，针对轨迹分段做泛化，精确度更高；二是没有考虑位置语义，如果匿名集语义分布单一或不均匀，攻击者仍可以获得用户的敏感语义信息；三是基于欧几里得空间计算距离，不符合路网的实际情况，用户需要按照路网拓扑在两个位置之间移动，移动距离往往不是两个位置的欧几里得距离。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提出了一种基于分段聚类的路网轨迹语义隐私保护方法，该方法对轨迹进行分段划分，并对轨迹分段进行聚类，获得轨迹分段所属的地图区域，轨迹分段基于更精确的背景语义分布进行细粒度地泛化，从而提高匿名成功率和语义隐私保护效果，改善匿名数据质量。

为实现上述目的，本发明所提供的技术方案为：一种基于分段聚类的路网轨迹语义隐私保护方法，包括以下步骤：

1)预处理初始轨迹数据集，对轨迹进行重采样操作；

2)基于MDL(最小描述长度)原则，对轨迹进行分段划分，获得轨迹分段数据集；

3)基于路网距离对轨迹分段数据集中的轨迹分段进行聚类，形成分段类；

4)确定分段类的路网领域，统计分段类的语义位置分布；

5)基于分段类的语义位置分布，启发式生成匿名分段集，用匿名分段集代替单个轨迹进行数据发布，实现路网轨迹语义隐私保护。

在步骤1)中，初始轨迹数据集中的一条轨迹表示为T＝{uid,(p₁,p₂,…,p_n)}，其中uid为轨迹的用户标识，p_i＝(x_i,y_i,t_i)为构成轨迹的位置点，表示用户在t_i时刻经纬度为x_i和y_i，i＝1,2,…,n；预处理过程对轨迹T执行以下重采样算法：

1.1)从起始点p₁开始遍历轨迹T；

1.2)记录相邻点p_i和p_i+1之间，i＝1,2,…,n-1，轨迹经过的路网结点，假设该路网结点表示为p_j，插入到p_i和p_i+1之间，p_j＝(x_j,y_j,t_j)，路网结点经纬度x_j和y_j由路网图得到，用户在该路网结点的时刻t_j由式(1)计算：

其中，path(p_i,p_i+1)是从p_i到p_i+1的轨迹长度，path(p_i,p_j)是从p_i到p_j的轨迹长度，p_i.t表示点p_i的时刻，p_i+1.t表示点p_i+1的时刻；

1.3)保留轨迹的起始点、终止点和插入的路网结点，将其它点删除；

1.4)处理所有轨迹，获得重采样轨迹数据集。

在步骤2)中，基于MDL(最小描述长度)原则，使用贪心算法寻找轨迹中的特征点，并将特征点的前一个点作为划分点，对轨迹做分段划分，获得轨迹分段数据集。

在步骤3)中，进行如下定义：

定义1、路网距离d_r

将路网抽象成无向网，路网中边长作为无向网中边的权重；如果p和q都是路网结点，路网距离d_r(p,q)是无向网中两点的最短路径长度；如果p是路网边上的点，q是路网结点，从p到q的路径上找到离p最近的路网结点v，路网距离d_r(p,q)是p和v的欧几里得距离与d_r(v,q)的和；

定义2、分段空间距离d_H

两个轨迹分段TP_i＝(p₁,p₂,…,p_n)和TP_j＝(q₁,q₂,…,q_m)，其中p₁到p_n是构成分段TP_i的位置点，q₁到q_m是构成分段TP_j的位置点；d_H(TP_i,TP_j)是分段TP_i和TP_j之间的分段空间距离，由式(2)计算：

d_H(TP_i,TP_j)＝max(h(TP_i,TP_j),h(TP_j,TP_i)) (2)

其中，h(TP_i,TP_j)是从TP_i到TP_j的单向Hausdorff距离，h(TP_j,TP_i)是从TP_j到TP_i的单向Hausdorff距离，都基于路网距离，由式(3)计算：

定义3、分段时间距离d_t

d_t(TP_i,TP_j)是分段TP_i和TP_j之间的分段时间距离，由式(4)计算：

d_t(TP_i,TP_j)＝|p₁.t-q₁.t|+|p_n.t-q_m.t| (4)

其中，p₁.t表示分段TP_i起始点p₁的时刻，p_n.t表示分段TP_i终止点p_n的时刻，q₁.t表示分段TP_j起始点q₁的时刻，q_m.t表示分段TP_j终止点q_m的时刻；

定义4、分段时空距离dist

dist(TP_i,TP_j)表示轨迹分段TP_i和TP_j的时空距离，是标准化分段空间距离d_H和标准化分段时间距离d_t的和，由式(5)计算：

其中，maxd_H和mind_H是轨迹分段数据集中最大和最小分段空间距离，maxd_t和mind_t是轨迹分段数据集中最大和最小分段时间距离；

定义5、分段类中心点cp

分段类中心点cp的经纬度是一个分段类C中所有分段的点的经纬度均值，cp的经纬度x和y由式(6)计算：

其中，TP是分段类C中的分段，p是构成分段TP的位置点，p.x和p.y分别是点p的经度和纬度；

定义6、聚类质心cen

聚类迭代一轮后，分段类C计算新的聚类质心，选择离分段类中心点cp距离最近的路网边作为新的聚类质心cen，并将路网边的两个端点作为cen的起始点p_s和终止点p_e，经纬度由路网图获得，起始/终止时间是分段类中所有分段起始/终止时间的均值，由式(7)计算：

其中，p_s.t和p_e.t表示聚类质心的起始和终止时间，TP.p₁.t表示分段TP的起始点时间，TP.p_n.t表示分段TP的终止点时间；

然后，对轨迹分段数据集执行K-means聚类算法：

3.1)在轨迹分段数据集中随机选择K个分段作为初始聚类质心cen，每个质心代表一个分段类；

3.2)遍历其余每个分段，计算该分段到各个聚类质心的分段时空距离dist，选择最小dist对应的分段类加入；

3.3)重新计算每个分段类的聚类质心cen；

3.4)重复步骤3.2)和3.3)，直到最大迭代次数；

3.5)获得分段类的集合。

在步骤4)中，语义位置分布在路网边上，按照如下步骤确定分段类的路网领域，路网领域是分段类在路网图中的覆盖区域，由该区域所有路网边的集合表示；

4.1)统计分段类中分段经过的路网边，作为分段类的路网领域；

4.2)计算各个分段类中心cp，经纬度是一个分段类C中所有分段的点的经纬度均值；

4.3)计算非轨迹分段的路网边到各个cp的距离，选择最小距离的分段类，加入路网领域中；

4.3)统计分段类路网领域的语义位置数量，获得各个分段类语义位置分布。

在步骤5)中，定义语义隐私需求profile＝(k,l,δ)，k-匿名性要求匿名集合中至少有k个用户的轨迹分段，l-多样性要求匿名集合中至少有l种语义位置，δ-邻近性要求匿名集语义位置分布X和所属分段类的语义位置分布Y相似，用KL聚合度记为δ来计算分布X和分布Y的差异，由式(8)计算，其中u是语义位置种类，X_u表示第u种语义位置的数量在匿名集语义位置数量中的占比，Y_u表示第u种语义位置的数量在分段类语义位置数量中的占比；指定阈值δ_t后，当δ≤δ_t，匿名集满足δ-邻近性；

然后，执行启发式算法，在分段类中生成匿名分段集：

5.1)计算分段类中所有分段之间的分段时空距离dist，用数组Dist[][]存储；

5.2)选择dist最小的两个分段进行结合，将对应的Dist数组值设为内存最大值，表示已结合；存在三种结合情况：将两个孤立分段结合为新集合、将一个孤立分段加入到已有集合、将两个已有集合进行合并；

5.3)重复步骤5.2)，当出现集合满足k-匿名性时，将该集合从分段类中删除；

5.4)重复步骤5.3)，直到剩余分段无法结合成满足要求的集合时停止，此时分段类生成多个匿名集，将剩余分段加入到dist最近的匿名集中；

5.5)判断每个匿名集是否满足profile，若不满足，从分段类路网领域中加入集合没有的路网边，直到满足profile；

5.6)用匿名分段集代替单个轨迹进行数据发布。

本发明与现有技术相比，具有如下优点与有益效果：

1、本发明考虑实际轨迹移动方向和模式的多变性，对轨迹进行分段划分，不同分段可以按需泛化到不同的匿名集中，实现轨迹分段的细粒度泛化，降低匿名集中的数据损失，改善匿名数据质量。

2、本发明将轨迹分段进行聚类，生成多个分段类。在分段类中生成匿名集时，用该分段类的语义位置分布作为语义参照，实现更精确的语义隐私保护，提高语义隐私保护效果。

3、本发明轨迹分段后，分段端点都是路网结点，是实际路网中的路口，道路方向不唯一，避免攻击者连接分段恢复轨迹，抗攻击能力强。

4、本发明采用路网距离代替欧几里得距离，更符合实际路网情况。

5、本发明生成匿名集时，先快速结合时空距离最近的分段满足k-匿名要求，然后增加外部路网边满足语义要求，可以降低匿名集中的数据损失，改善匿名数据质量。

附图说明

图1是本发明方法的流程图。

图2是轨迹重采样的示意图；图中，A、B和C是路网结点，a和b是轨迹结点，细线是路网边，粗线是轨迹。

图3是轨迹分段聚类的示意图；图中，cen1和cen2是两个聚类质心，代表两个分段类，TP是一条轨迹分段，细线是路网边，粗线是轨迹。

图4是匿名集生成的示意图；图中，TP1、TP2、TP3和TP4是轨迹分段，虚线圆圈表示一个分段类，细线是路网边，粗线是轨迹。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

如图1所示，本实施例所提供的基于分段聚类的路网轨迹语义隐私保护方法，结合分段、聚类和启发式算法生成匿名分段集合，包括以下步骤：

1)预处理初始轨迹数据集，对轨迹进行重采样操作；其中，初始轨迹数据集中的一条轨迹表示为T＝{uid,(p₁,p₂,…,p_n)}，其中uid为轨迹的用户标识，p_i＝(x_i,y_i,t_i)为构成轨迹的位置点，表示用户在t_i时刻经纬度为x_i和y_i，i＝1,2,…,n；预处理过程对轨迹T执行以下重采样算法：

1.1)从起始点p₁开始遍历轨迹T；

1.4)处理所有轨迹，获得重采样轨迹数据集。

2)基于MDL(最小描述长度)原则，使用贪心算法寻找轨迹中的特征点，并将特征点的前一个点作为划分点，对轨迹做分段划分，获得轨迹分段数据集。

3)基于路网距离对轨迹分段数据集中的轨迹分段进行聚类，形成分段类，具体如下：

首先，进行如下定义：

定义1、路网距离d_r

定义2、分段空间距离d_H

d_H(TP_i,TP_j)＝max(h(TP_i,TP_j),h(TP_j,TP_i)) (2)

定义3、分段时间距离d_t

d_t(TP_i,TP_j)＝|p₁.t-q₁.t|+|p_n.t-q_m.t| (4)

定义4、分段时空距离dist

定义5、分段类中心点cp

定义6、聚类质心cen

然后，对轨迹分段数据集执行K-means聚类算法：

3.3)重新计算每个分段类的聚类质心cen；

3.4)重复步骤3.2)和3.3)，直到最大迭代次数；

3.5)获得分段类的集合。

4)确定分段类的路网领域，统计分段类的语义位置分布；其中，语义位置分布在路网边上，按照如下步骤确定分段类的路网领域，路网领域是分段类在路网图中的覆盖区域，由该区域所有路网边的集合表示；

5)基于分段类的语义位置分布，启发式生成匿名分段集，用匿名分段集代替单个轨迹进行数据发布，实现路网轨迹语义隐私保护，具体如下：

定义语义隐私需求profile＝(k,l,δ)，k-匿名性要求匿名集合中至少有k个用户的轨迹分段，l-多样性要求匿名集合中至少有l种语义位置，δ-邻近性要求匿名集语义位置分布X和所属分段类的语义位置分布Y相似，用KL聚合度记为δ来计算分布X和分布Y的差异，由式(8)计算，其中u是语义位置种类，X_u表示第u种语义位置的数量在匿名集语义位置数量中的占比，Y_u表示第u种语义位置的数量在分段类语义位置数量中的占比；指定阈值δ_t后，当δ≤δ_t，匿名集满足δ-邻近性；

然后，执行启发式算法，在分段类中生成匿名分段集：

5.6)用匿名分段集代替单个轨迹进行数据发布。

下面我们结合具体数据对本实施例上述路网轨迹语义隐私保护方法作进一步描述，其具体情况如下：

1)对收集到的初始轨迹数据集做预处理，对轨迹进行重采样，将轨迹经过的路网结点插入轨迹，通过路网图获取路网结点的坐标，通过计算得到路网结点的时刻，保留起始点、路网结点和终止点，将轨迹上其它点删除。如图2所示，路网结点A坐标是(0,2)，B坐标是(2,2)，C坐标是(4,0)。粗线表示一条轨迹(a,b)，a＝(1,2,1.0)表示a在1.0s时刻的坐标，b＝(3,1,2.0)表示b在2.0s时刻的坐标。轨迹从a到b路过路网结点B，轨迹重采样后变为(a,B,b)，B的坐标从路网图获得，用户在B的时间t计算如下：

2)对重采样后的轨迹进行分段划分，基于MDL(最小描述长度)原则，使用贪心算法寻找接近的最优分段结果。使用MDL_par(p_i,p_j)表示轨迹从p_i到p_j独立成一个分段时，描述轨迹所需要的MDL成本。使用MDL_nopar(p_i,p_j)表示轨迹从p_i到p_j不进行分段时，描述该轨迹所需要的MDL成本。如果MDL_par(p_i,p_j)>MDL_nopar(p_i,p_j),说明找到一个局部最长的轨迹分段(p_i,p_j-1),在p_j的前一个节点做分段划分。

3)对轨迹分段进行聚类，第一轮聚类随机选择K个分段作为聚类质心，其他分段选择时空距离最小的质心对应的分段类加入。第二轮聚类，重新选择分段类的聚类质心，首先计算分段类中心点，然后选择距离中心点最近的路网边作为新的聚类质心，并计算起始和终止时间，进行新一轮的聚类，重复该过程直到最大迭代次数，聚类完成。如图3所示，在第一轮聚类中，轨迹分段cen1和cen2作为两个分段类的聚类质心，轨迹分段TP需要选择时空距离dist最近的分段类加入。假设轨迹序列cen1＝{(1,5,1.0),(2,5,2.0),(3,5,3.0)}，

TP＝{(1,3,1.0),(2,3,2.0),(3,3,3.0),(4,3,4.0)}，

cen2＝{(2,1,2.0),(3,1,3.5),(4,1,5.0)}，

maxd_H＝5，mind_H＝1，maxd_t＝5，mind_t＝1。

分段时空距离dist(TP,cen1)计算过程如下：

d_t(TP,cen1)＝|p₁.t-q₁.t|+|p_n.t-q_m.t|＝|1.0-1.0|+|4.0-3.0|＝1

同理可计算dist(TP,cen2)＝0.75，选择最小的dist，将TP加入到cen1代表的分段类中。第二轮聚类时，重新选择cen1和TP所在分段类C的质心，首先计算分段类中心cp的经纬度x和y：

然后将距离cp(2.29,3.86)中心点最近的路网边作为新的聚类质心cen，并计算cen的起始和终止时间：

4)聚类完成后，轨迹数据集变成多个分段类，统计分段类的语义位置分布，例如分段类的路网领域中有医院10个，学校20个，商场20个，那么语义位置分布Y中，医院是0.2，学校是0.4，商场是0.4，作为匿名集语义位置分布X的参照背景。

5)在分段类中生成满足profile的匿名集，反复将分段类中分段时空距离最小的两个分段结合成一个集合，此时有三种情况：将两个孤立分段结合为新集合、将一个孤立分段加入到已有集合、将两个已有集合进行合并。当出现一个集合中用户数量满足k-匿名性时，将该集合从分段类中取出，并插入外部路网边满足语义要求。如图4所示，TP1、TP2、TP3和TP4是轨迹分段，现TP1和TP2是一个匿名集，想要满足profile＝(k＝3,l＝3,δ＝0.06)，要继续结合。计算TP3到匿名集的距离是min(dist(TP3,TP1),dist(TP3,TP2)，TP4到匿名集的距离是min(dist(TP4,TP1),dist(TP4,TP2)。如果TP3更近，将TP3加入到匿名集中，满足k-匿名性要求，从分段类中删除，判断该匿名集是否满足profile。假设分段类的语义位置分布Y中，医院是0.2，学校是0.4，商场是0.4。如果匿名集中语义有医院3个，学校3个，商场4个，那么匿名集满足l-多样性，匿名集语义分布X中，医院是0.3，学校是0.3，商场是0.4。δ计算如下：

δ小于阈值0.06，满足δ-临近性。该匿名集满足profile，可直接发布。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于分段聚类的路网轨迹语义隐私保护方法，其特征在于，包括以下步骤：

1)预处理初始轨迹数据集，对轨迹进行重采样操作；

初始轨迹数据集中的一条轨迹表示为T＝{uid,(p₁,p₂,…,p_n)}，其中uid为轨迹的用户标识，p_i＝(x_i,y_i,t_i)为构成轨迹的位置点，表示用户在t_i时刻经纬度为x_i和y_i，i＝1,2,…,n；预处理过程对轨迹T执行以下重采样算法：

1.1)从起始点p₁开始遍历轨迹T；

1.2)记录相邻点p_i和p_i+1之间轨迹经过的路网结点，其中，i＝1,2,…,n-1，假设该路网结点表示为p_j，插入到p_i和p_i+1之间，p_j＝(x_j,y_j,t_j)，路网结点经纬度x_j和y_j由路网图得到，用户在该路网结点的时刻t_j由式(1)计算：

1.4)处理所有轨迹，获得重采样轨迹数据集；

2)基于最小描述长度MDL原则，对轨迹进行分段划分，获得轨迹分段数据集；

4)确定分段类的路网领域，统计分段类的语义位置分布；

2.根据权利要求1所述的一种基于分段聚类的路网轨迹语义隐私保护方法，其特征在于，在步骤2)中，基于最小描述长度MDL原则，使用贪心算法寻找轨迹中的特征点，并将特征点的前一个点作为划分点，对轨迹做分段划分，获得轨迹分段数据集。

3.根据权利要求1所述的一种基于分段聚类的路网轨迹语义隐私保护方法，其特征在于，在步骤3)中，进行如下定义：

定义1、路网距离d_r

定义2、分段空间距离d_H

d_H(TP_i,TP_j)＝max(h(TP_i,TP_j),h(TP_j,TP_i)) (2)

定义3、分段时间距离d_t

d_t(TP_i,TP_j)＝|p₁.t-q₁.t|+|p_n.t-q_m.t| (4)

定义4、分段时空距离dist

定义5、分段类中心点cp

定义6、聚类质心cen

然后，对轨迹分段数据集执行K-means聚类算法：

3.3)重新计算每个分段类的聚类质心cen；

3.4)重复步骤3.2)和3.3)，直到最大迭代次数；

3.5)获得分段类的集合。

4.根据权利要求1所述的一种基于分段聚类的路网轨迹语义隐私保护方法，其特征在于，在步骤4)中，语义位置分布在路网边上，按照如下步骤确定分段类的路网领域，路网领域是分段类在路网图中的覆盖区域，由该区域所有路网边的集合表示；

5.根据权利要求1所述的一种基于分段聚类的路网轨迹语义隐私保护方法，其特征在于，在步骤5)中，定义语义隐私需求profile＝(k,l,δ)，k-匿名性要求匿名集合中至少有k个用户的轨迹分段，l-多样性要求匿名集合中至少有l种语义位置，δ-邻近性要求匿名集语义位置分布X和所属分段类的语义位置分布Y相似，用KL聚合度记为δ来计算分布X和分布Y的差异，由式(8)计算，其中u是语义位置种类，X_u表示第u种语义位置的数量在匿名集语义位置数量中的占比，Y_u表示第u种语义位置的数量在分段类语义位置数量中的占比；指定阈值δ_t后，当δ≤δ_t，匿名集满足δ-邻近性；

然后，执行启发式算法，在分段类中生成匿名分段集：

5.6)用匿名分段集代替单个轨迹进行数据发布。