CN114444123A

CN114444123A - 基于语义信息的匿名轨迹隐私保护方法

Info

Publication number: CN114444123A
Application number: CN202210087301.7A
Authority: CN
Inventors: 蒋洪波; 吴林清; 肖竹; 王孟源; 曾凡仔; 刘代波
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2022-01-25
Filing date: 2022-01-25
Publication date: 2022-05-06
Anticipated expiration: 2042-01-25
Also published as: CN114444123B

Abstract

本发明提供了一种基于语义信息的匿名轨迹隐私保护方法，包括：步骤1，基于空间访问密度将原轨迹数据集中的轨迹进行离散化，生成自适应离散化格网；步骤2，通过滑动窗口算法将离散化格网中的轨迹划分为若干定长的子轨迹；步骤3，分别计算滑动窗口中子轨迹的时空相似度，并分别根据子轨迹的时空相似度进行轨迹聚类，获得轨迹匿名聚类集合；步骤4，将轨迹匿名聚类集合中的同一匿名聚类中的子轨迹进行合并，合并后的子轨迹满足l‑diversity。本发明可使发布的匿名轨迹数据集有效抵御去匿名攻击和语义攻击，保护用户隐私，减少数据损失，保证数据的可用性。

Description

基于语义信息的匿名轨迹隐私保护方法

技术领域

本发明涉及隐私保护和信息安全技术领域，特别涉及一种基于语义信息的匿名轨迹隐私保护方法。

背景技术

随着各类移动设备大量普及，和大数据分析技术的飞速发展，移动设备使用者的轨迹常常被收集后发布，被研究人员和LBS服务提供商用大数据分析技术挖掘出有价值的信息，用于学术研究或商业发展，比如智慧城市、智能路网的建设，和优化LBS服务质量。但数据拥有者对外发布轨迹数据集时，不可避免地会涉及到用户的隐私泄露问题。

为保护用户的轨迹中包含的隐私信息，轨迹数据发布前通常要匿名化处理，但去匿名攻击依然会导致用户隐私泄露。攻击者试图结合其他方法获取的数据或信息等背景信息，从发布的匿名数据集中识别出攻击对象的轨迹。针对去匿名攻击，通常使用k匿名模型，使每个用户的轨迹与其他k-1个用户的轨迹无法区分，从而保护用户隐私。但传统的k匿名算法在形成匿名轨迹聚类、合并轨迹的过程中会造成数据损失，减少数据可用性。同时，传统k匿名隐私保护模型也无法防止用户轨迹中语义信息泄露。攻击者可以先找出轨迹中用户频繁访问的区域，再根据该区域PoI分布特征，推测出用户访问该区域的目的，从而进一步获取用户隐私信息，如工作地点、健康状态、宗教信仰等。

发明内容

本发明提供了一种基于语义信息的匿名轨迹隐私保护方法，其目的是为了解决传统的匿名轨迹隐私保护方法不能够有效抵御匿名攻击和语义攻击，数据损失大，语义数据集可用性低的问题。

为了达到上述目的，本发明的实施例提供了一种基于语义信息的匿名轨迹隐私保护方法，包括：

步骤1，基于空间访问密度将原轨迹数据集中的轨迹进行离散化，生成自适应离散化格网；

步骤2，通过滑动窗口算法将离散化格网中的轨迹划分为若干定长的子轨迹；

步骤3，分别计算滑动窗口中子轨迹的时空相似度，并分别根据子轨迹的时空相似度进行轨迹聚类，获得轨迹匿名聚类集合；

步骤4，将轨迹匿名聚类集合中的同一匿名聚类中的子轨迹进行合并，合并后的子轨迹满足l-diversity，其中，l-diversity表示轨迹中每个时空位置附近的PoI种类；

步骤5，移动所述步骤2中的滑动窗口，重复执行所述步骤3和所述步骤4，直至滑动窗口移动到轨迹数据集所在时间范围的终点，获得满足k^m匿名和l-diversity的第一匿名轨迹集，其中，k^m匿名表示对轨迹中任意的长度小于等于m的连续时空位置序列匿名；

步骤6，基于PoI的分布特征处理匿名轨迹集，匿名轨迹集满足t-closeness，其中，t-closeness表示轨迹中每个时空位置附近的PoI分布与数据集所在地理空间的PoI分布差异，获得满足k^m匿名、l-diversity和t-closeness的第二匿名轨迹数据集。

其中，所述步骤1具体包括：

步骤11，设置自适应离散化格网的格网尺寸参数为N，将地理空间初始化为N*N的格网；

步骤12，依次对自适应离散化格网中的单元格进行标号；

步骤13，根据地理位置坐标与单元格的映射关系，将轨迹编码成单元格序列。

其中，所述步骤1还包括：

步骤14，计算每个单元格的归一化访问次数；

步骤15，依次判断计算出的每个单元格的归一化访问次数是否达到预设的单元格的归一化访问次数阈值，将达到单元格的归一化访问次数阈值的单元格通过二分法进行细化；

步骤16，跳转到步骤12，重复执行步骤12至步骤15直到达到预设的迭代次数。

其中，所述步骤2具体包括：

步骤21，滑动窗口算法中的滑动窗口设定为m，其滑动步长设定为1，从轨迹的起始时空点开始，将轨迹数据集D_dis中的所有轨迹划分成若干个包含m个时空位置的子轨迹。

其中，所述步骤3具体包括：

步骤31，计算子轨迹Tra_a和子轨迹Tra_b的时空相似度，如下所示：

其中，t表示滑动窗口中的第t个时隙，

表示子轨迹Tra_a和子轨迹Tra_b在第t个时隙位置集L_a和L_b的时空距离，n_a表示位置集L_a中的位置数，n_b表示位置集L_b中的位置数，l_a表示位置集L_a中的位置，l_b表示位置集L_b中的位置，SED(l_a,l_b)表示l_a和l_b的平方欧氏距离；

步骤32，根据步骤31计算滑动窗口中每一对子轨迹的时空相似度；

步骤33，将空匿名聚类集合进行初始化，在每次迭代中，选取未被加入匿名聚类集合且时空相似度最小的两个子轨迹或子轨迹聚类，合并为新的子轨迹聚类。

其中，所述步骤3还包括：

步骤34，判断新的子轨迹聚类中的子轨迹数量是否大于等于设定的隐私水平δ_k；

步骤35，当新的子轨迹聚类中的子轨迹数量大于等于设定的隐私水平δ_k时，将新的子轨迹聚类加入匿名轨迹聚类集合；当新的子轨迹聚类中的子轨迹数量小于设定的隐私水平δ_k时，计算新的子轨迹聚类与其他不在匿名聚类中的子轨迹聚类或子轨迹的相似度，并存入矩阵Ω；

步骤36，重复步骤31至步骤35，直到所有子轨迹均加入匿名聚类集合；轨迹聚类结束，获得轨迹匿名聚类集合。

其中，所述步骤4具体包括：

步骤41，初始化长度为m，各时隙位置信息为空的轨迹mTra；

步骤42，从待合并的匿名聚类中逐一取出子轨迹，按时隙的顺序把该子轨迹的时空位置合并入轨迹mTra，在第t个时隙，合并后的位置信息是两条轨迹在这个时隙位置的并集，获得初步合并后的轨迹mTra。

其中，所述步骤4还包括：

步骤43，遍历轨迹mTra的每个时空位置集，判断当前位置集所在区域的PoI种类数目是否小于设定的阈值δ_l，当当前位置集所在区域的PoI种类数目小于设定的阈值δ_l时，从与当前位置集相邻的所有单元格中，优先选取当前位置集所在区域内合适的单元格并将所述合适的单元格并入当前位置集，当当前位置集所在区域的PoI种类数目依然小于阈值δ_l时，重复挑选合适的单元格再合并入当前位置集，直至当前位置集的PoI种类数目大于等于设定的阈值δ_l时；

步骤44，合并结束后，获得PoI种类满足的轨迹mTra。

其中，所述步骤6具体包括：

步骤61，统计轨迹数据集所在整个地理区域中各类PoI种类的数量，获得整个地理区域的PoI分布向量；

步骤62，遍历第一匿名轨迹集中的所有轨迹，统计每条轨迹的各个时空位置的所在区域中的各类PoI种类的数量，获得每条轨迹的各个时空位置的所在区域的PoI分布向量。

其中，所述步骤6还包括：

步骤63，根据每条轨迹的各个时空位置的所在区域的PoI分布向量，计算该区域与轨迹数据集D_dis所在整个地理区域的PoI分布向量的JS散度；

步骤64，判断所述JS散度是否小于等于设定的阈值δ_t，当所述JS散度大于设定的阈值δ_t时，从与该时空位置的所在区域相邻的所有单元格中，优先选取合适的单元格并入该区域，再次判断所述JS散度是否小于等于设定的阈值δ_t，当所述JS散度大于设定的阈值δ_t时，重复挑选合适的单元格再并入该区域，直至该区域与整个地理区域的PoI分布向量的JS散度小于等于阈值δ_t；

步骤65，重复执行步骤63至步骤64，直到遍历完匿名轨迹集中的所有轨迹的各个时空位置的所在区域，获得同时满足k^m匿名、l-diversity和t-closeness的匿名轨迹数据集。

本发明的上述方案有如下的有益效果：

本发明的上述实施例所述的基于语义信息的匿名轨迹隐私保护方法，基于空间访问密度生成自适应离散化格网，保留更多的轨迹时空信息，实现更高效的轨迹离散化；k^m匿名模型保证了对于任意轨迹中长度为m的子轨迹，至少有其他k-1条轨迹也包含相同的子轨迹；k^m匿名模型泛化处理的轨迹序列更短，产生的数据损失更少，保证数据的可用性，同时能抵御长度为m的背景知识攻击；获得的匿名轨迹数据集满足l-diversity和t-closeness，能够抵御语义攻击，阻止攻击者推测出用户访问某区域的目的，有效保护轨迹中的语义隐私信息。

附图说明

图1为本发明的流程图；

图2为本发明的轨迹根据地理坐标映射到格网的示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明针对现有的匿名轨迹隐私保护方法不能够有效抵御匿名攻击和语义攻击，数据损失大，语义数据集可用性低的问题，提供了一种基于语义信息的匿名轨迹隐私保护方法。

如图1至图2所示，本发明的实施例提供了一种基于语义信息的匿名轨迹隐私保护方法，包括：步骤1，基于空间访问密度将原轨迹数据集中的轨迹进行离散化，生成自适应离散化格网；步骤2，通过滑动窗口算法将离散化格网中的轨迹划分为若干定长的子轨迹；步骤3，分别计算滑动窗口中子轨迹的时空相似度，并分别根据子轨迹的时空相似度进行轨迹聚类，获得轨迹匿名聚类集合；步骤4，将轨迹匿名聚类集合中的同一匿名聚类中的子轨迹进行合并，合并后的子轨迹满足l-diversity，其中，l-diversity表示轨迹中每个时空位置附近的PoI种类至少有l种；步骤5，移动所述步骤2中的滑动窗口，重复执行所述步骤3和所述步骤4，直至滑动窗口移动到轨迹数据集所在时间范围的终点，获得满足k^m匿名和l-diversity的第一匿名轨迹集，其中，k^m匿名表示对轨迹中任意的长度小于等于m的连续时空位置序列匿名，至少有其他k-1条轨迹也包含该序列；步骤6，基于PoI的分布特征处理匿名轨迹集，匿名轨迹集满足t-closeness，其中，t-closeness表示轨迹中每个时空位置附近的PoI分布与数据集所在地理空间的PoI分布差异小于t，获得满足k^m匿名、l-diversity和t-closeness的第二匿名轨迹数据集。

其中，所述步骤1具体包括：步骤11，设置自适应离散化格网的格网尺寸参数为N，将地理空间初始化为N*N的格网；步骤12，依次对自适应离散化格网中的单元格进行标号；步骤13，根据地理位置坐标与单元格的映射关系，将轨迹编码成单元格序列。

其中，所述步骤1还包括：步骤14，计算每个单元格的归一化访问次数；步骤15，依次判断计算出的每个单元格的归一化访问次数是否达到预设的单元格的归一化访问次数阈值，将达到单元格的归一化访问次数阈值的单元格通过二分法进行细化；步骤16，跳转到步骤12，重复执行步骤12至步骤15直到达到预设的迭代次数。

本发明的上述实施例所述的基于语义信息的匿名轨迹隐私保护方法，根据真实轨迹数据集D_real，设置格网尺寸参数N，将地理空间初始化为N*N的格网；给格网中的每个单元格依次标号C₁,C₂,…,C_i,…，其中i∈[1,单元格的总数]；根据地理位置坐标与格网中单元格的映射关系，把真实轨迹数据集D_real中的轨迹编码为单元格序列。例如，图2中轨迹T＝{l₁,l₂,l₃,l₄,l₅}会被编码为T＝{C₁,C₂,C₂,C₂,C₄}；根据公式计算格网中每个单元格的归一化访问次数：

其中，g(C_i)是单元格C_i的归一化访问次数，i∈[1,N²]，T是轨迹数据集D_real中的轨迹，|T|是轨迹T包含的单元格数量，即轨迹T的长度，

是单元格C_i在轨迹T中出现的次数；

将所有单元格按照归一化访问次数从大到小排序，并把排在前param_p的单元格用二分法细化，在本发明中param_p＝25％；返回步骤12，并重复执行步骤12至步骤15直至迭代次数达到param_n，最终得到基于空间访问密度的自适应离散化格网和编码后的轨迹数据集D_dis，param_n＝3。

其中，所述步骤2具体包括：步骤21，滑动窗口算法中的滑动窗口设定为m，其滑动步长设定为1，从轨迹的起始时空点开始，将轨迹数据集D_dis中的所有轨迹划分成若干个包含m个时空位置的子轨迹。

其中，所述步骤3具体包括：步骤31，计算子轨迹Tra_a和子轨迹Tra_b的时空相似度，如下所示：

其中，t表示滑动窗口中的第t个时隙，

表示子轨迹Tra_a和子轨迹Tra_b在第t个时隙位置集L_a和L_b的时空距离，n_a表示位置集L_a中的位置数，n_b表示位置集L_b中的位置数，l_a表示位置集L_a中的位置，l_b表示位置集L_b中的位置，SED(l_a,l_b)表示l_a和l_b的平方欧氏距离；步骤32，根据步骤31计算滑动窗口中每一对子轨迹的时空相似度；步骤33，将空匿名聚类集合进行初始化，在每次迭代中，选取未被加入匿名聚类集合且时空相似度最小的两个子轨迹或子轨迹聚类，合并为新的子轨迹聚类。

其中，所述步骤3还包括：步骤34，判断新的子轨迹聚类中的子轨迹数量是否大于等于设定的隐私水平δ_k；步骤35，当新的子轨迹聚类中的子轨迹数量大于等于设定的隐私水平δ_k时，将新的子轨迹聚类加入匿名轨迹聚类集合；当新的子轨迹聚类中的子轨迹数量小于设定的隐私水平δ_k时，计算新的子轨迹聚类与其他不在匿名聚类中的子轨迹聚类或子轨迹的相似度，并存入矩阵Ω；步骤36，重复步骤31至步骤35，直到所有子轨迹均加入匿名聚类集合；轨迹聚类结束，获得轨迹匿名聚类集合。

其中，所述步骤4具体包括：步骤41，初始化长度为m，各时隙位置信息为空的轨迹mTra；步骤42，从待合并的匿名聚类中逐一取出子轨迹，按时隙的顺序把该子轨迹的时空位置合并入轨迹mTra，在第t个时隙，合并后的位置信息是两条轨迹在这个时隙位置的并集，获得初步合并后的轨迹mTra。

其中，所述步骤4还包括：步骤43，遍历轨迹mTra的每个时空位置集，判断当前位置集所在区域的PoI种类数目是否小于设定的阈值δ_l，当当前位置集所在区域的PoI种类数目小于设定的阈值δ_l时，从与当前位置集相邻的所有单元格中，优先选取当前位置集所在区域内合适的单元格并将所述合适的单元格并入当前位置集，当当前位置集所在区域的PoI种类数目依然小于阈值δ_l时，重复挑选合适的单元格再合并入当前位置集，直至当前位置集的PoI种类数目大于等于设定的阈值δ_l时；步骤44，合并结束后，获得PoI种类满足的轨迹mTra。

其中，所述步骤6具体包括：步骤61，统计轨迹数据集所在整个地理区域中各类PoI种类的数量，获得整个地理区域的PoI分布向量；步骤62，遍历第一匿名轨迹集中的所有轨迹，统计每条轨迹的各个时空位置的所在区域中的各类PoI种类的数量，获得每条轨迹的各个时空位置的所在区域的PoI分布向量。

其中，所述步骤6还包括：步骤63，根据每条轨迹的各个时空位置的所在区域的PoI分布向量，计算该区域与轨迹数据集D_dis所在整个地理区域的PoI分布向量的JS散度；步骤64，判断所述JS散度是否小于等于设定的阈值δ_t，当所述JS散度大于设定的阈值δ_t时，从与该时空位置的所在区域相邻的所有单元格中，优先选取合适的单元格并入该区域，再次判断所述JS散度是否小于等于设定的阈值δ_t，当所述JS散度大于设定的阈值δ_t时，重复挑选合适的单元格再并入该区域，直至该区域与整个地理区域的PoI分布向量的JS散度小于等于阈值δ_t；步骤65，重复执行步骤63至步骤64，直到遍历完匿名轨迹集中的所有轨迹的各个时空位置的所在区域，获得同时满足k^m匿名、l-diversity和t-closeness的匿名轨迹数据集。

本发明的上述实施例所述的基于语义信息的匿名轨迹隐私保护方法，假设待计算相似度的子轨迹分别是子轨迹Tra_a和子轨迹Tra_b。首先计算第t个时隙中，子轨迹Tra_a和子轨迹Tra_b在这个时隙位置集L_a和L_b的时空距离

计算公式如下：

其中，n_a表示位置集L_a中的位置数，n_b表示位置集L_b中的位置数，l_a表示位置集L_a中的位置，l_b表示位置集L_b中的位置，SED(l_a,l_b)表示l_a和l_b的平方欧氏距离；

再计算子轨迹Tra_a和子轨迹Tra_b的时空相似度D_a,b，计算公式如下：

计算滑动窗口每一对子轨迹的时空相似度，并把结果存入矩阵Ω中；

首先初始化空匿名聚类集合，然后在每次迭代中，选取未被加入匿名聚类集合且时空相似度最小的两个子轨迹或子轨迹聚类，合并为新的子轨迹聚类。判断合并后聚类中的子轨迹数量是否大于等于设定的隐私水平。若符合，则把该子轨迹聚类加入匿名轨迹聚类集合；若不符合，计算该子轨迹聚类与其他不在匿名聚类中的子轨迹聚类或子轨迹的相似度，存入矩阵Ω。重复以上轨迹聚类过程，直至所有子轨迹都被加入匿名聚类集合；轨迹聚类结束后，获得轨迹k匿名聚类集合；

合并同一匿名聚类中的子轨迹，并使得合并后的轨迹满足l-diversity；

具体地，合并同一匿名聚类中的轨迹，并使合并后的轨迹满足l-diversity包括以下子步骤：

初始化长度为m，各时隙位置信息为空的轨迹mTra；

从待合并的匿名聚类中逐一取出子轨迹，按时隙的顺序把该子轨迹的时空位置一一合并入轨迹mTra。在第t个时隙，合并后的位置信息是两条轨迹在这个时隙位置的并集。获得初步合并后的轨迹mTra；

遍历轨迹mTra的每个时空位置集，判断该位置集所在区域的PoI种类数目是否大于等于设定的阈值δ_l。若不符合，就从与该位置集相邻的所有单元格中，优先选取并入原位置集后，能使位置集所在区域的PoI种类数目增加得最多的单元格，将其合并入该位置集。若位置集所在区域的PoI种类数目依然小于阈值δ_l，重复挑选合适的单元格再合并入位置集，直至该位置集的PoI种类数目大于等于设定的阈值δ_l；

合并结束后，获得PoI种类满足l-diversity的轨迹mTra，作为该子轨迹匿名聚类的合并结果，用来代表该子轨迹匿名聚类中的子轨迹；

向前移动滑动窗口，重复执行步骤3至步骤4，直至滑动窗口移动到终点，最终获得满足k^m匿名和l-diversity的第一匿名轨迹集D'_anony；

基于PoI的分布特征处理第一匿名轨迹集D'_anony，使其中的轨迹满足t-closeness；

处理第一匿名轨迹集D'_anony，使第一匿名轨迹集D'_anony中的轨迹满足t-closeness包括以下子步骤：

统计轨迹数据集所在整个地理区域R中各类PoI的数量，获得区域R的PoI分布向量V_R＝[N₁,N₂,…,N_h,…,N_c]，其中，c是整个地理区域R中PoI的种类总数，N_h是区域R中第h类PoI的数量；

遍历第一匿名轨迹集D'_anony中所有轨迹，统计每条轨迹各时空位置所在地理区域中各类PoI的数量，获得该区域的PoI分布向量。例如某时空位置所在地理区域r，该区域的PoI分布向量为

是区域r中第h类PoI的数量；

根据各时空位置所在区域的PoI分布向量，计算该区域与轨迹数据集所在整个地理区域R的PoI分布向量的JS散度。例如，某时空位置所在地理区域r的PoI分布向量是

则V_r与V_R的JS散度计算方法为：

其中，V_r是地理区域r的PoI分布向量，V_R是地理区域R的PoI分布向量，JSD(V_r||V_R)是V_r与V_R的JS散度，KLD是KL散度，

和

的计算方法如下：

其中，V_r是地理区域r的PoI分布向量，V_R是地理区域R的PoI分布向量，c是整个地理区域R中PoI的种类总数，

是区域r中第j类PoI的出现的概率，

是区域r中第j类PoI的数量，

是区域r中第h类PoI的数量，

是区域R中第j类PoI的出现的概率，

是区域R中第j类PoI的数量，

是区域R中第h类PoI的数量。

判断区域r与整个地理区域R的PoI分布向量的JS散度是否小于等于设置好的阈值δ_t。若不符合，就从与区域r相邻的所有单元格中，优先选取并入区域r后，能使JS散度减少得最多的单元格，将其合并入区域r。若JS散度仍大于阈值δ_t，重复挑选合适的单元格再合并入区域r，直至区域r与整个地理区域R的PoI分布向量的JS散度小于等于阈值δ_t；

按照步骤63至步骤64处理完所有轨迹中各时空位置所在区域后，获得同时满足k^m匿名、l-diversity和t-closeness的第二匿名轨迹数据集D_anony，可用于发布。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于语义信息的匿名轨迹隐私保护方法，其特征在于，包括：

2.根据权利要求1所述的基于语义信息的匿名轨迹隐私保护方法，其特征在于，所述步骤1具体包括：

步骤12，依次对自适应离散化格网中的单元格进行标号；

3.根据权利要求4所述的基于语义信息的匿名轨迹隐私保护方法，其特征在于，所述步骤1还包括：

步骤14，计算每个单元格的归一化访问次数；

4.根据权利要求3所述的基于语义信息的匿名轨迹隐私保护方法，其特征在于，所述步骤2具体包括：

5.根据权利要求4所述的基于语义信息的匿名轨迹隐私保护方法，其特征在于，所述步骤3具体包括：

其中，t表示滑动窗口中的第t个时隙，

表示子轨迹Tra_a和子轨迹Tra_b在第t个时隙位置集L_a和L_b的时空距离，n_a表示位置集L_a中的位置数，n_b表示位置集L_b中的位置数，l_a表示位置集L_a中的位置，l_b表示位置集L_b中的位置，SED(l_a，l_b)表示l_a和l_b的平方欧氏距离；

6.根据权利要求5所述的基于语义信息的匿名轨迹隐私保护方法，其特征在于，所述步骤3还包括：

7.根据权利要求6所述的基于语义信息的匿名轨迹隐私保护方法，其特征在于，所述步骤4具体包括：

步骤41，初始化长度为m，各时隙位置信息为空的轨迹mTra；

8.根据权利要求7所述的基于语义信息的匿名轨迹隐私保护方法，其特征在于，所述步骤4还包括：

步骤44，合并结束后，获得PoI种类满足的轨迹mTra。

9.根据权利要求8所述的基于语义信息的匿名轨迹隐私保护方法，其特征在于，所述步骤6具体包括：

10.根据权利要求9所述的基于语义信息的匿名轨迹隐私保护方法，其特征在于，所述步骤6还包括：