CN110502919B

CN110502919B - 一种基于深度学习的轨迹数据去匿名方法

Info

Publication number: CN110502919B
Application number: CN201910631703.7A
Authority: CN
Inventors: 张蕊; 向阳; 谢鹏
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2019-07-12
Filing date: 2019-07-12
Publication date: 2022-11-18
Anticipated expiration: 2039-07-12
Also published as: CN110502919A

Abstract

本发明公开了一种基于深度学习的轨迹数据去匿名方法，首先在预设的划分精度下，空间被划分为多个近似网格形状的子空间；然后将轨迹数据分为两组，一组是已知用户轨迹，另一组是匿名用户轨迹，将两组轨迹拆分成轨迹段，映射到网格数据中，从而得到所述轨迹对应的一组网格标识序列；其次将前一步所述的一组网格标识序列输入到改进的DenseNet模型中，已知用户轨迹作为训练集，匿名用户轨迹作为测试集；最后通过模型对轨迹的分类，将匿名数据与已知用户数据集中的数据对应，找到匿名用户轨迹数据对应的真实用户信息。本发明实现了隐私轨迹数据的去匿名化，以验证此类攻击的有效性，从而揭示匿名轨迹数据的隐私风险。

Description

一种基于深度学习的轨迹数据去匿名方法

技术领域

本发明属于计算机大数据处理技术领域，涉及一种轨迹数据去匿名方法，具体为一种基于深度学习的轨迹数据去匿名方法。

背景技术

移动终端和定位技术的发展，使得随时随地获取移动对象的精确位置成为可能。移动轨迹中通常包含丰富的时空信息，通过合理的挖掘和分析可获得有价值的信息。互联网服务提供商(ISP)越来越多地收集匿名用户移动轨迹，详细的位置跟踪包含关于个人用户的敏感信息(例如家庭和工作地点，个人习惯)，恶意攻击者可根据非法获取的移动轨迹推测出用户个人隐私信息，如生活周期或敏感位置，甚至可能严重威胁到参与者的人身和财产安全。

为了保护移动对象轨迹隐私，轨迹数据集发布前常使用假名对轨迹进行匿名化处理，假名用户的匿名轨迹仍面临隐私泄露风险。基于对轨迹数据分析的需要，阻止这些信息的访问是不现实的，同时也无法完全保证数据访问者的合法性。因此，提出移动轨迹数据的去匿名攻击方法是有意义的，以验证此类攻击的有效性，从而揭示匿名轨迹数据的隐私风险，来探寻更有效的匿名化处理方法。

近年来，研究者们在位置或轨迹隐私保护及其去匿名化方法等方面的研究已取得了一些进展。然而现有的研究基于真实数据集上的研究不够，且过于依赖特征工程与分类规则的发现，通常是需要人工干预的，更忽略了时间属性对于分类结果的影响。

发明内容

为了解决上述技术问题，本发明采用对轨迹分类算法的优化，提供了一种基于深度学习的轨迹数据去匿名方法，实现了对匿名轨迹数据的隐私风险研究。

本发明所采用的技术方案是：1.一种基于深度学习的轨迹数据去匿名方法，其特征在于，包括以下步骤：

步骤1：在预设的划分精度下，将轨迹数据空间划分为若干个网格形状的子空间；

步骤2：对于真实世界的轨迹数据集，将轨迹数据分为两组，一组是已知用户轨迹数据，另一组是匿名用户轨迹数据，将两组轨迹数据拆分成轨迹段，映射到网格数据中，从而得到所述轨迹数据对应的一组网格标识序列；

步骤3：将步骤2中得到的一组网格标识序列输入到改进的DenseNet模型中，已知用户轨迹数据作为训练集，匿名用户轨迹数据作为测试集；对训练集经过若干次迭代、训练，得到训练好的模型；

步骤4：将训练好的模型运用于匿名用户轨迹段数据，通过模型对轨迹的分类，将匿名数据与已知用户数据集中的数据对应，找到匿名用户轨迹数据对应的真实用户信息，从而达到轨迹数据去匿名效果。

作为优选，步骤1中，网格形状的子空间大小设定为grid_width＝16，grid_height＝16。

作为优选，步骤2的具体实现包括以下步骤：

步骤2.1：将轨迹数据用四元组表示为(mmsi，lat，lon，ti)，其中mmsi表示移动目标、lon表示地理坐标经度、lat表示地理坐标维度、ti表示记录时间，作为网格数据映射的输入；

步骤2.2：将轨迹数据按不同用户拆分为若干个轨迹段，记录轨迹段中轨迹点的个数，取得每一个当前轨迹段最大纬度、最小纬度、最大经度和最小经度；

步骤2.3：利用记录的最大最小纬度按照以下公式将轨迹映射到网格数据中；

inter_lat＝(max_lat-min_lat)/grid_width

inter_lon＝(max_lon-min_lon)/grid_height

grid_lat＝int((max_lat-float(lat))/inter_lat)

grid_lon＝int((float(lon)-min_lon)/inter_lon)

其中，grid_width，grid_height表示网格形状的子空间大小，inter_lat，inter_lon分别表示当前轨迹段的经纬度映射精度，max_lat，min_lat，max_lon，min_lon分别表示当前轨迹段的最大纬度、最小纬度，最大经度和最小经度；float(lat)、(float(lon)表示纬度、经度的浮点数，grid_lat、grid_lon表示网格纬度和网格经度。

作为优选，步骤3中，所述改进的DenseNet模型，由多个Dense Block组成，并引入了注意力机制，block内部结构为BN-ReLU-Conv(1×1)-BN-ReLU-Conv(3×3)；每个DenseBlock的之间层为transition layers，由BN->Conv(1×1)->average Pooling(2×2)组成；通过堆叠Attention Dense Module，可以加强网络中特征的传播，同时也减少了网络的参数；

改进的DenseNet模型使用keras和tensorflow来搭建。

作为优选，步骤4中，通过轨迹分类，将这些匿名轨迹与其对应的mmsi对应；mmsi相同的轨迹段即为同一用户的轨迹数据，即完成了对假名用户的去匿名化，获取其真实用户信息。

本发明的有益效果是，它采用了基于DenseNet的深度学习来进行策略的优化，相对于之前的去匿名算法有了明显的性能提升，并且在真实数据集上得到了验证。将轨迹数据映射到网格，不再需要通过复杂的特征工程来提取运动特征和发现分类规则，之后用深度神经网络来对网格数据进行自动特征学习，具有自主学习的过程。

附图说明

图1为本发明实施例的流程图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

深度学习领域中，ResNet的出现很好的解决了梯度弥散的问题，使得更深的网络得以更好的训练，第L层的网络是由L-1层的网络经过H(包括Conv，BN，ReLU，Pooling)变换得到，在此基础上直接连接到上一层的网络，使得梯度能够得到更好的传播。《DenselyConnected Convolutional Networks》提出的DenseNet基本思路与ResNet一致，但是它建立的是前面所有层与后面层的密集连接(dense connection)，通过特征在channel上的连接来实现特征重用(feature reuse)，这些特点让DenseNet在参数和计算成本更少的情形下实现比ResNet更优的性能，提升网络的性能，从而使得分类结果更加准确，有效的达到轨迹数据去匿名效果。

请见图1，本发明提供的一种基于深度学习的轨迹数据去匿名方法，包括以下步骤：

第1步：在预设的划分精度下，将轨迹数据空间划分为多个网格形状的子空间；

本实施例中，网格形状的子空间大小设定为grid_width＝16，grid_height＝16。

第2步：对于真实世界的轨迹数据集，将轨迹数据分为两组，一组是已知用户轨迹数据，另一组是匿名用户轨迹数据，将两组轨迹数据拆分成轨迹段，映射到网格数据中，从而得到所述轨迹数据对应的一组网格标识序列；

本实施例中，第2步具体实现包括以下子步骤：

第2.1步：对于真实世界的轨迹数据集，匿名用户轨迹来自于互联网服务供应商(ISP)，对应的已知用户轨迹来自于匹配的外部轨迹数据集(相同用户群体)，单个位置数据记录主要包含移动目标mmsi，地理坐标(经度lon和维度lat)和记录时间ti，可用四元组表示为(mmsi，lat，lon，ti)，作为网格数据映射的输入；

第2.2步：将轨迹数据按不同用户拆分为若干个轨迹段，记录轨迹段中轨迹点的个数，取得每一个当前轨迹段最大纬度、最小纬度、最大经度和最小经度；

第2.3步：利用记录的最大最小纬度按照以下公式将轨迹映射到网格数据中；

inter_lat＝(max_lat-min_lat)/grid_width

inter_lon＝(max_lon-min_lon)/grid_height

grid_lat＝int((max_lat-float(lat))/inter_lat)

grid_lon＝int((float(lon)-min_lon)/inter_lon)

其中inter_lat，inter_lon分别表示当前轨迹段的经纬度映射精度，max_lat，min_lat，max_lon，min_lon分别表示当前轨迹段最大纬度，最小纬度，最大经度和最小经度；float(lat)、(float(lon)表示纬度、经度的浮点数，grid_lat、grid_lon表示网格纬度和网格经度。

第3步：将步骤2中得到的一组网格标识序列输入到改进的DenseNet模型中，已知用户轨迹数据作为训练集，匿名用户轨迹数据作为测试集；对训练集经过若干次迭代、训练，得到训练好的模型；

在前面网络层和后面的网络层之间建立short path，在保证网络中层与层之间最大程度的信息传输的前提下，直接将所有层连接起来。每一层的输入来自前面所有层的输出，具体为x_l＝H_l([x₀，x₁，…，x_(l-1)])，[x₀，x₁，…，x_(l-1)]表示将0到l-1层的输出featuremap在通道上concatenation。

改进的DenseNet模型，由多个Dense Block组成，并引入了注意力机制，block内部结构为BN-ReLU-Conv(1×1)-BN-ReLU-Conv(3×3)；每个Dense Block的之间层为transition layers，由BN->Conv(1×1)->average Pooling(2×2)组成。通过堆叠Attention Dense Module，可以加强网络中特征的传播，同时也减少了网络的参数；

Transition Block模块主要由卷积层和池化层组成，其中卷积核大小为1×1，卷积核的个数为Dense Block模块输出特征图个数的α倍，0<α<1，从而达到降低特征图个数的目的。使用categorical cross-entropy函数作为损失函数，使用正确率作为主要评价指标外，还有每个类别的precision，recall和f1-score的加权平均。

改进的DenseNet模型使用keras和tensorflow来搭建。

第4步：将训练好的模型运用于匿名用户轨迹段数据，通过模型对轨迹的分类，将匿名数据与已知用户数据集中的数据对应，找到匿名用户轨迹数据对应的真实用户信息，从而达到轨迹数据去匿名效果。

本实施例中，第4步具体实现包括以下子步骤：

第4.1步：通过轨迹分类，将这些匿名轨迹与其对应的用户ID(mmsi)对应；

第4.2步：用户ID相同的轨迹段即为同一用户的轨迹数据，即完成了对假名用户的去匿名化，获取其真实用户信息。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于深度学习的轨迹数据去匿名方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于深度学习的轨迹数据去匿名方法，其特征在于：步骤1中，网格形状的子空间大小设定为grid_width＝16，grid_height＝16。

3.根据权利要求1所述的基于深度学习的轨迹数据去匿名方法，其特征在于，步骤2的具体实现包括以下步骤：

inter_lat＝(max_lat-min_lat)/grid_width

inter_lon＝(max_lon-min_lon)/grid_height

grid_lat＝int((max_lat-float(lat))/inter_lat)

grid_lon＝int((float(lon)-min_lon)/inter_lon)

其中，grid_width，grid_height表示网格形状的子空间大小，inter_lat，inter_lon分别表示当前轨迹段的经纬度映射精度，max_lat，min_lat，max_lon，min_lon分别表示当前轨迹段的最大纬度、最小纬度，最大经度和最小经度；float(lat)、float(lon)表示纬度、经度的浮点数，grid_lat、grid_lon表示网格纬度和网格经度。

4.根据权利要求3所述的基于深度学习的轨迹数据去匿名方法，其特征在于：步骤3中，所述改进的DenseNet模型，由多个Dense Block组成，并引入了注意力机制，block内部结构为BN-ReLU-Conv(1×1)-BN-ReLU-Conv(3×3)；每个Dense Block的之间层为transitionlayers，由BN->Conv(1×1)->average Pooling(2×2)组成；通过堆叠Attention DenseModule，加强网络中特征的传播，同时也减少了网络的参数；

改进的DenseNet模型使用keras和tensorflow来搭建。

5.根据权利要求3或4任意一项所述的基于深度学习的轨迹数据去匿名方法，其特征在于：步骤4中，通过轨迹分类，将这些匿名轨迹与其对应的mmsi对应；mmsi相同的轨迹段即为同一用户的轨迹数据，即完成了对假名用户的去匿名化，获取其真实用户信息。