CN113722752B

CN113722752B - 基于lfp树与代理向量的轨迹隐私数据发布方法、装置及系统

Info

Publication number: CN113722752B
Application number: CN202110953709.3A
Authority: CN
Inventors: 吕朋朋; 韦宣; 陶晓峰; 陆洋; 刘淇; 戚梦逸; 缪平; 陆宇洋; 黄福兴; 隋仕伟; 俞海猛; 毕善钰; 徐致光; 张云凯; 孙羽森
Original assignee: Nari Technology Co Ltd; State Grid Electric Power Research Institute
Current assignee: Nari Technology Co Ltd; State Grid Electric Power Research Institute
Priority date: 2021-08-19
Filing date: 2021-08-19
Publication date: 2024-04-09
Anticipated expiration: 2041-08-19
Also published as: CN113722752A

Abstract

本发明公开了一种基于LFP树与代理向量的轨迹隐私数据发布方法、装置及系统，所述方法包括利用网格模型将轨迹数据库D中个人位置数据信息转化成代理向量，形成原始代理向量轨迹数据库D^V；利用LFP树在所述原始代理向量轨迹数据库D^V中搜索破坏匿名性的最小冲突序列MVS集合；利用基于LFP树更新的局部抑制方法去除最小冲突序列，形成新的代理向量轨迹数据库D^V'；基于所述新的代理向量轨迹数据库D^V'，针对用户的信用级别，发布不同类型的数据。本发明使用基于网格的代理向量来有效避免数据的泄露问题，通过局部频繁模式树跳过大量不必要的候选序列，并且降低了数据的维度数，减少了时间复杂度，该方法保证了数据的安全性和利用率。

Description

基于LFP树与代理向量的轨迹隐私数据发布方法、装置及系统

技术领域

本发明属于轨迹隐私数据发布技术领域，具体涉及一种基于LFP树与代理向量的轨迹隐私数据发布方法、装置及系统。

背景技术

随着使用的智能设备数量不断增加，个人的位置信息被广泛的收集、存储、分析和使用。然而这些数据都存在着隐私问题，收集和使用这些数据将会被禁止。轨迹隐私数据发布是指使用匿名化算法避免隐私数据的泄露，从而能够使这些数据在数据分析、推荐服务等方面得到便利。

现有的一些隐私保护模型方法没有公布一个具体的轨迹数据库，也没有考虑到具体背景知识相关的序列；另有的一些隐私保护方法虽然研究了攻击类型，但通常都是基于点位置信息，不适用于匿名轨迹隐私数据库，而且极大地限制了数据的效用。因此需要研究适用于轨迹数据库的隐私数据发布方法。

发明内容

针对上述问题，本发明提出一种基于LFP树与代理向量的轨迹隐私数据发布方法、装置及系统，使用基于网格的代理向量来有效避免数据的泄露问题，通过局部频繁模式树跳过大量不必要的候选序列，并且降低了数据的维度数，减少了时间复杂度，该方法保证了数据的安全性和利用率。

为了实现上述技术目的，达到上述技术效果，本发明通过以下技术方案实现：

第一方面，本发明提供了一种基于LFP树与代理向量的轨迹隐私数据发布方法，包括：

利用网格模型将轨迹数据库D中个人位置数据信息转化成代理向量，形成原始代理向量轨迹数据库D^V；

利用LFP树在所述原始代理向量轨迹数据库D^V中搜索破坏匿名性的最小冲突序列MVS集合；

利用基于LFP树更新的局部抑制方法去除最小冲突序列，形成新的代理向量轨迹数据库D^V'；

基于所述新的代理向量轨迹数据库D^V'，针对用户的信用级别，发布不同类型的数据。

可选地，所述代理向量轨迹数据库D^V的形成方法包括：

利用处理函数Φ[·]，将轨迹数据库D中的个人位置数据转化为代理向量，并存储在代理向量轨迹数据库D^V中，所述处理函数Φ[·]的表达式为：

其中，(b₁,b₂,...,b_n)表示基本单元序列，b₁表示单元序列中第一个维度的值，b_n表示单元序列第n维度的值；(b₁ ^*,b₂ ^V,...,b_n ^V)表示基于向量的序列即代理向量，b₁ ^*是加密实例，b₂ ^V表示代理向量的第二维度的值，b_n ^V表示代理向量的第n维度的值，n表示数据的维度。

可选地，所述最小冲突序列MVS集合的形成方法包括：

扫描一次原始代理向量轨迹数据库D^V，计算原始代理向量轨迹数据库D^V中所有实例对b的频率|D^V(b)|；将满足条件|D^V(b)|<K的实例对b存储于S₁中，即S₁是满足频率小于K的实列对的集合，不满足条件的实例对存储在d₁中，d₁表示满足条件|D^V(b)|>K的实例对的集合，其中，K、L为预设的阈值；

重复以下搜索步骤，最终输出数据库中的最小冲突序列MVS集合S(D^V)＝S₁∪S₂∪...∪S_i-1；

所述搜索步骤具体为：

对于长度为i大于1小于L的序列，i表示序列长度，每次递增1；将d_i-1中的实例对降序排列，d_i-1表示长度为i-1且不满足频率小于K的实例对集合，根据排序的实例对生成LFP树T_i-1 ^LFP；

对于生成的LFP树T_i-1 ^LFP的每个分支β_j，j表示分支的个数，β_j表示从叶节点及其父节点到根节点的集合，计算集合中的频率，[β_j(K+)∞β_j(K+)]_i表示分支β_j中实例对频率大于K且非MVS序列的集合，将集合[β_j(K+)∞β_j(K+)]_i中的序列添加到SC1中；

对于集合[β_j(K-)∞β_j]_i中的每个序列q，将不属于SC1中的序列添加到SC2中并更新|T_i-1 ^LFP(q)|，[β_j(K-)∞β_j]_i表示分支β_j中实例对频率小于K的序列集合，无法判断其序列是否为MVS；

判断SC2中的序列q是否是q'∈S_i-1的超序列，S_i-1表示搜索长度为i-1时的MVS序列，如果是，则从SC2中删除q，否则保留q；

将搜索到的长度为i的最小冲突序列集合添加到S_i中，S_i表示长度为i时的MVS序列集合，将SC1与SC2置空，令i＝i+1，d_i＝SC2-S_i，d_i表示长度为i时SC2中非MVS序列集合。

可选地，所述新的代理向量轨迹数据库D^V'的形成方法包括：

步骤3-1：对于长度为1的序列，检查双元组p的局部抑制对MVS集合和m是否有效，m表示非MVS的序列集合，如果|D^V(p)|-|D^V(m)|<K，表明是无效的，则返回布尔值false，K、L为设定的阈值；

步骤3-2：将原始代理向量轨迹数据库D^V中满足条件|D^V(b)|>K的实例对^b添加到^d中，将d中的实例对降序排序，根据排序顺序生成LFP树T^LFP；

步骤3-3：对于LFP树T^LFP的每个分支β_j，判断分支是否满足条件|β_j·p|-min_b∈m(|β_j·b|)≥K；

步骤3-4：如果满足条件，对于长度i大于1小于等于L的序列，计算序列的频率，将频率大于K的序列集合[p∞β_j(K+)]_L添加到Q'，将频率不大于K的序列集合[p∞β_j]_L-[p∞β_j(K+)]_L添加到Q*中，利用Q与Q*的交集更新LFP树|T^LFP(q)|，将长度i递增1，重复步骤3-4，直到满足退出循环条件；

步骤3-5：如果不满足步骤3-3的条件，对于长度i大于1小于等于L的序列，计算序列的频率，将分支中频率不大于K的序列集合[p∞β_j]_L-Q'添加到Q*中，Q'表示频率大于K的序列集合，利用Q与Q*的交集更新LFP树|T^LFP(q)|，将长度i递增1，重复步骤3-5，直到满足退出循环条件；

步骤3-6：判断每一个序列q，是否满足条件0<|T^LFP(q)|<K，如果满足条件，则返回布尔值false；

步骤3-7：执行完上述步骤后，返回布尔值true。

可选地，所述针对用户的信用级别，发布不同类型的数据，具体包括：

对于信用级别小于第一阈值的用户，只提供代理向量数据；

对于信用级别大于或等于第一阈值，但小于第二阈值的用户，提供区域信息和代理向量；

对于信用级别大于或等于第二阈值的用户，提供区域信息、代理向量和私钥。

第二方面，本发明提供了一种基于LFP树与代理向量的轨迹隐私数据发布装置，包括：

转化模块，用于利用网格模型将轨迹数据库D中个人位置数据信息转化成代理向量，形成原始代理向量轨迹数据库D^V；

搜索模块，用于利用LFP树在所述原始代理向量轨迹数据库D^V中搜索破坏匿名性的最小冲突序列MVS集合；

去除模块，用于利用基于LFP树更新的局部抑制方法去除最小冲突序列，形成新的代理向量轨迹数据库D^V'；

发布模块，用于基于所述新的代理向量轨迹数据库D^V'，针对用户的信用级别，发布不同类型的数据。

可选地，所述代理向量轨迹数据库D^V的形成方法包括：

可选地，所述最小冲突序列MVS集合的形成方法包括：

扫描一次D^V，计算数据库D^V中所有实例对b的频率|D^V(b)|；将满足条件|D^V(b)|<K的实例对b存储于S₁中，不满足条件的实例对存储在d₁中，K、L为设定的阈值；

所述搜索步骤具体为：

对于长度为i大于1小于L的序列，i表示序列长度，初始值为2，每次递增1；将d_i-1中的实例对降序排列，d_i-1表示长度为i-1且不满足频率小于K的实例对集合，根据排序的实例对生成LFP树T_i-1 ^LFP；

对于生成的LFP树T_i-1 ^LFP的每个分支β_j，计算组成分支的实例对的频率，[β_j(K+)∞β_j(K+)]_i表示分支β_j中实例对频率大于K且非MVS序列的集合，将集合[β_j(K+)∞β_j(K+)]_i中的序列添加到SC1中；

判断SC2中的序列q是否是q'∈S_i-1的超序列，如果是，则从SC2中删除q，否则保留q；

将搜索到的长度为i的最小冲突序列集合添加到S_i中，将SC1与SC2置空，i＝i+1，d_i＝SC2-S_i。

可选地，所述新的代理向量轨迹数据库D^V'的形成方法包括：

步骤3-2：将D^V中满足条件|D^V(b)|>K的实例对b添加到d中，将d中的实例对降序排序，根据排序顺序生成LFP树T^LFP；

步骤3-5：如果不满足步骤3-3的条件，对于长度i大于1小于等于L的序列，计算序列的频率，将分支中频率不大于K的序列集合[p∞β_j]_L-Q'添加到Q*中，利用Q与Q*的交集更新LFP树|T^LFP(q)|，将长度i递增1，重复步骤3-5，直到满足退出循环条件；

步骤3-7：执行完上述步骤后，返回布尔值true。

对于信用级别小于第一阈值的用户，只提供代理向量数据；

第三方面，本发明提供了一种基于LFP树与代理向量的轨迹隐私数据发布系统，包括包括处理器和存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据第一方面中任一项所述方法的步骤。

与现有技术相比，本发明的有益效果：

本发明使用网格模型将个人轨迹数据信息转化为代理向量，避免了数据的泄露问题；通过使用局部频繁树(LFP树)，使得在寻找最小冲突序列时避免了大量的候选序列以及降低了数据的维数，减少了数据的复杂度；最后根据用户的级别，提供不同类型的数据，提供给信任用户的数据，可以预测轨迹流，并且获取特定区域的轨迹数据。

附图说明

为了使本发明的内容更容易被清楚地理解，下面根据具体实施例并结合附图，对本发明作进一步详细的说明，其中：

图1为本发明一种实施例的基于LFP树与代理向量的轨迹隐私数据发布方法的流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明的保护范围。

下面结合附图对本发明的应用原理作详细的描述。

实施例1

本发明实施例中提供了一种基于LFP树与代理向量的轨迹隐私数据发布方法，包括以下步骤：

(1)利用网格模型将轨迹数据库D中个人位置数据信息转化成代理向量，形成原始代理向量轨迹数据库D^V；

(2)利用LFP树在所述原始代理向量轨迹数据库D^V中搜索破坏匿名性的最小冲突序列MVS集合；

(3)利用基于LFP树更新的局部抑制方法去除最小冲突序列，形成新的代理向量轨迹数据库D^V'；

(4)基于所述新的代理向量轨迹数据库D^V'，针对用户的信用级别，发布不同类型的数据。

在本发明实施例的一种具体实施方式中，所述代理向量轨迹数据库D^V的形成方法包括：

其中，(b₁,b₂,...,b_n)表示基本单元序列，b₁表示单元序列中第一个维度的值，b_n表示单元序列第n维度的值；(b₁ ^*,b₂ ^V,...,b_n ^V)表示基于向量的序列即代理向量，是加密实例，b₂ ^V表示代理向量的第二维度的值，/>表示代理向量的第n维度的值，n表示数据的维度。

在本发明实施例的一种具体实施方式中，所述最小冲突序列MVS集合的形成方法包括：

所述搜索步骤具体为：

对于长度为i大于1小于L的序列，将d_i-1中的实例对降序排列，d_i-1表示长度为i-1且不满足频率小于K的实例对集合，根据排序的实例对生成LFP树T_i-1 ^LFP；

在本发明实施例的一种具体实施方式中，所述新的代理向量轨迹数据库D^V'的形成方法包括：

步骤3-7：执行完上述步骤后，返回布尔值true。

在本发明实施例的一种具体实施方式中，所述针对用户的信用级别，发布不同类型的数据，具体包括：

对于信用级别小于第一阈值的用户(即低级别用户)，只提供代理向量数据；

对于信用级别大于或等于第一阈值(即中等级别的用户)，但小于第二阈值的用户，提供区域信息和代理向量；

对于信用级别大于或等于第二阈值的用户(即高级用户)，提供区域信息、代理向量和私钥。

实施例2

基于与实施例1相同的本发明提供了一种基于LFP树与代理向量的轨迹隐私数据发布装置，包括：

所述搜索步骤具体为：

步骤3-7：执行完上述步骤后，返回布尔值true。

对于信用级别小于第一阈值的用户，只提供代理向量数据；

实施例3

基于与实施例1相同的发明构思，本发明实施例中提供了一种基于LFP树与代理向量的轨迹隐私数据发布系统，包括包括处理器和存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据实施例1中任一项所述方法的步骤。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于LFP树与代理向量的轨迹隐私数据发布方法，其特征在于，包括：

基于所述新的代理向量轨迹数据库D^V'，针对用户的信用级别，发布不同类型的数据；

所述最小冲突序列MVS集合的形成方法包括：

扫描一次原始代理向量轨迹数据库D^V，计算原始代理向量轨迹数据库D^V中所有实例对b的频率|D^V(b)|；将满足条件|D^V(b)|＜K的实例对b存储于S₁中，即S₁是满足频率小于K的实列对的集合，不满足条件的实例对存储在d₁中，d₁表示满足条件|D^V(b)|＞K的实例对的集合，其中，K、L为预设的阈值；

重复以下搜索步骤，最终输出数据库中的最小冲突序列MVS集合S(D^V)＝S₁∪S₂∪...S_i-；

所述搜索步骤具体为：

将搜索到的长度为i的最小冲突序列集合添加到S_i中，S_i表示长度为i时的MVS序列集合，将SC1与SC2置空，令i＝i+1，d_i＝SC2-S_i，d_i表示长度为i时SC2中非MVS序列集合；

所述新的代理向量轨迹数据库D^V'的形成方法包括：

步骤3-1：对于长度为1的序列，检查双元组p的局部抑制对MVS集合和m是否有效，m表示非MVS的序列集合，如果|D^V(p)|-|D^V(m)|＜K，表明是无效的，则返回布尔值false，K、L为设定的阈值；

步骤3-2：将原始代理向量轨迹数据库D^V中满足条件|D^V(b)|＞K的实例对b添加到d中，将d中的实例对降序排序，根据排序顺序生成LFP树T^LFP；

步骤3-6：判断每一个序列q，是否满足条件0＜|T^LFP(q)|＜K，如果满足条件，则返回布尔值false；

步骤3-7：执行完上述步骤后，返回布尔值true。

2.根据权利要求1所述的一种基于LFP树与代理向量的轨迹隐私数据发布方法，其特征在于，所述代理向量轨迹数据库D^V的形成方法包括：

3.根据权利要求1所述的一种基于LFP树与代理向量的轨迹隐私数据发布方法，其特征在于，所述针对用户的信用级别，发布不同类型的数据，具体包括：

对于信用级别小于第一阈值的用户，只提供代理向量数据；

4.一种基于LFP树与代理向量的轨迹隐私数据发布装置，其特征在于，包括：

发布模块，用于基于所述新的代理向量轨迹数据库D^V'，针对用户的信用级别，发布不同类型的数据；

所述最小冲突序列MVS集合的形成方法包括：

扫描一次D^V，计算数据库D^V中所有实例对b的频率|D^V(b)|；将满足条件|D^V(b)|＜K的实例对b存储于S₁中，不满足条件的实例对存储在d₁中，K、L为设定的阈值；

重复以下搜索步骤，最终输出数据库中的最小冲突序列MVS集合S(D^V)＝S₁∪S₂∪...∪S_i-；

所述搜索步骤具体为：

判断SC2中的序列q是否是q'∈S_i-1的超序列，如果是，则从SC2中删除q，否则保留q；将搜索到的长度为i的最小冲突序列集合添加到S_i中，将SC1与SC2置空，i＝i+1，d_i＝SC2-S_i；

所述新的代理向量轨迹数据库D^V'的形成方法包括：

步骤3-2：将D^V中满足条件|D^V(b)|＞K的实例对b添加到d中，将d中的实例对降序排序，根据排序顺序生成LFP树T^LFP；

步骤3-7：执行完上述步骤后，返回布尔值true。

5.根据权利要求4所述的一种基于LFP树与代理向量的轨迹隐私数据发布装置，其特征在于，所述代理向量轨迹数据库D^V的形成方法包括：

6.根据权利要求4所述的一种基于LFP树与代理向量的轨迹隐私数据发布装置，其特征在于，所述针对用户的信用级别，发布不同类型的数据，具体包括：

对于信用级别小于第一阈值的用户，只提供代理向量数据；

7.一种基于LFP树与代理向量的轨迹隐私数据发布系统，其特征在于，包括处理器和存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据权利要求1-3中任一项所述方法的步骤。