CN110502919B - 一种基于深度学习的轨迹数据去匿名方法 - Google Patents
一种基于深度学习的轨迹数据去匿名方法 Download PDFInfo
- Publication number
- CN110502919B CN110502919B CN201910631703.7A CN201910631703A CN110502919B CN 110502919 B CN110502919 B CN 110502919B CN 201910631703 A CN201910631703 A CN 201910631703A CN 110502919 B CN110502919 B CN 110502919B
- Authority
- CN
- China
- Prior art keywords
- track
- data
- grid
- lat
- lon
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
- G06F21/6254—Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Bioethics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Remote Sensing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于深度学习的轨迹数据去匿名方法,首先在预设的划分精度下,空间被划分为多个近似网格形状的子空间;然后将轨迹数据分为两组,一组是已知用户轨迹,另一组是匿名用户轨迹,将两组轨迹拆分成轨迹段,映射到网格数据中,从而得到所述轨迹对应的一组网格标识序列;其次将前一步所述的一组网格标识序列输入到改进的DenseNet模型中,已知用户轨迹作为训练集,匿名用户轨迹作为测试集;最后通过模型对轨迹的分类,将匿名数据与已知用户数据集中的数据对应,找到匿名用户轨迹数据对应的真实用户信息。本发明实现了隐私轨迹数据的去匿名化,以验证此类攻击的有效性,从而揭示匿名轨迹数据的隐私风险。
Description
技术领域
本发明属于计算机大数据处理技术领域,涉及一种轨迹数据去匿名方法,具体为一种基于深度学习的轨迹数据去匿名方法。
背景技术
移动终端和定位技术的发展,使得随时随地获取移动对象的精确位置成为可能。移动轨迹中通常包含丰富的时空信息,通过合理的挖掘和分析可获得有价值的信息。互联网服务提供商(ISP)越来越多地收集匿名用户移动轨迹,详细的位置跟踪包含关于个人用户的敏感信息(例如家庭和工作地点,个人习惯),恶意攻击者可根据非法获取的移动轨迹推测出用户个人隐私信息,如生活周期或敏感位置,甚至可能严重威胁到参与者的人身和财产安全。
为了保护移动对象轨迹隐私,轨迹数据集发布前常使用假名对轨迹进行匿名化处理,假名用户的匿名轨迹仍面临隐私泄露风险。基于对轨迹数据分析的需要,阻止这些信息的访问是不现实的,同时也无法完全保证数据访问者的合法性。因此,提出移动轨迹数据的去匿名攻击方法是有意义的,以验证此类攻击的有效性,从而揭示匿名轨迹数据的隐私风险,来探寻更有效的匿名化处理方法。
近年来,研究者们在位置或轨迹隐私保护及其去匿名化方法等方面的研究已取得了一些进展。然而现有的研究基于真实数据集上的研究不够,且过于依赖特征工程与分类规则的发现,通常是需要人工干预的,更忽略了时间属性对于分类结果的影响。
发明内容
为了解决上述技术问题,本发明采用对轨迹分类算法的优化,提供了一种基于深度学习的轨迹数据去匿名方法,实现了对匿名轨迹数据的隐私风险研究。
本发明所采用的技术方案是:1.一种基于深度学习的轨迹数据去匿名方法,其特征在于,包括以下步骤:
步骤1:在预设的划分精度下,将轨迹数据空间划分为若干个网格形状的子空间;
步骤2:对于真实世界的轨迹数据集,将轨迹数据分为两组,一组是已知用户轨迹数据,另一组是匿名用户轨迹数据,将两组轨迹数据拆分成轨迹段,映射到网格数据中,从而得到所述轨迹数据对应的一组网格标识序列;
步骤3:将步骤2中得到的一组网格标识序列输入到改进的DenseNet模型中,已知用户轨迹数据作为训练集,匿名用户轨迹数据作为测试集;对训练集经过若干次迭代、训练,得到训练好的模型;
步骤4:将训练好的模型运用于匿名用户轨迹段数据,通过模型对轨迹的分类,将匿名数据与已知用户数据集中的数据对应,找到匿名用户轨迹数据对应的真实用户信息,从而达到轨迹数据去匿名效果。
作为优选,步骤1中,网格形状的子空间大小设定为grid_width=16,grid_height=16。
作为优选,步骤2的具体实现包括以下步骤:
步骤2.1:将轨迹数据用四元组表示为(mmsi,lat,lon,ti),其中mmsi表示移动目标、lon表示地理坐标经度、lat表示地理坐标维度、ti表示记录时间,作为网格数据映射的输入;
步骤2.2:将轨迹数据按不同用户拆分为若干个轨迹段,记录轨迹段中轨迹点的个数,取得每一个当前轨迹段最大纬度、最小纬度、最大经度和最小经度;
步骤2.3:利用记录的最大最小纬度按照以下公式将轨迹映射到网格数据中;
inter_lat=(max_lat-min_lat)/grid_width
inter_lon=(max_lon-min_lon)/grid_height
grid_lat=int((max_lat-float(lat))/inter_lat)
grid_lon=int((float(lon)-min_lon)/inter_lon)
其中,grid_width,grid_height表示网格形状的子空间大小,inter_lat,inter_lon分别表示当前轨迹段的经纬度映射精度,max_lat,min_lat,max_lon,min_lon分别表示当前轨迹段的最大纬度、最小纬度,最大经度和最小经度;float(lat)、(float(lon)表示纬度、经度的浮点数,grid_lat、grid_lon表示网格纬度和网格经度。
作为优选,步骤3中,所述改进的DenseNet模型,由多个Dense Block组成,并引入了注意力机制,block内部结构为BN-ReLU-Conv(1×1)-BN-ReLU-Conv(3×3);每个DenseBlock的之间层为transition layers,由BN->Conv(1×1)->average Pooling(2×2)组成;通过堆叠Attention Dense Module,可以加强网络中特征的传播,同时也减少了网络的参数;
改进的DenseNet模型使用keras和tensorflow来搭建。
作为优选,步骤4中,通过轨迹分类,将这些匿名轨迹与其对应的mmsi对应;mmsi相同的轨迹段即为同一用户的轨迹数据,即完成了对假名用户的去匿名化,获取其真实用户信息。
本发明的有益效果是,它采用了基于DenseNet的深度学习来进行策略的优化,相对于之前的去匿名算法有了明显的性能提升,并且在真实数据集上得到了验证。将轨迹数据映射到网格,不再需要通过复杂的特征工程来提取运动特征和发现分类规则,之后用深度神经网络来对网格数据进行自动特征学习,具有自主学习的过程。
附图说明
图1为本发明实施例的流程图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
深度学习领域中,ResNet的出现很好的解决了梯度弥散的问题,使得更深的网络得以更好的训练,第L层的网络是由L-1层的网络经过H(包括Conv,BN,ReLU,Pooling)变换得到,在此基础上直接连接到上一层的网络,使得梯度能够得到更好的传播。《DenselyConnected Convolutional Networks》提出的DenseNet基本思路与ResNet一致,但是它建立的是前面所有层与后面层的密集连接(dense connection),通过特征在channel上的连接来实现特征重用(feature reuse),这些特点让DenseNet在参数和计算成本更少的情形下实现比ResNet更优的性能,提升网络的性能,从而使得分类结果更加准确,有效的达到轨迹数据去匿名效果。
请见图1,本发明提供的一种基于深度学习的轨迹数据去匿名方法,包括以下步骤:
第1步:在预设的划分精度下,将轨迹数据空间划分为多个网格形状的子空间;
本实施例中,网格形状的子空间大小设定为grid_width=16,grid_height=16。
第2步:对于真实世界的轨迹数据集,将轨迹数据分为两组,一组是已知用户轨迹数据,另一组是匿名用户轨迹数据,将两组轨迹数据拆分成轨迹段,映射到网格数据中,从而得到所述轨迹数据对应的一组网格标识序列;
本实施例中,第2步具体实现包括以下子步骤:
第2.1步:对于真实世界的轨迹数据集,匿名用户轨迹来自于互联网服务供应商(ISP),对应的已知用户轨迹来自于匹配的外部轨迹数据集(相同用户群体),单个位置数据记录主要包含移动目标mmsi,地理坐标(经度lon和维度lat)和记录时间ti,可用四元组表示为(mmsi,lat,lon,ti),作为网格数据映射的输入;
第2.2步:将轨迹数据按不同用户拆分为若干个轨迹段,记录轨迹段中轨迹点的个数,取得每一个当前轨迹段最大纬度、最小纬度、最大经度和最小经度;
第2.3步:利用记录的最大最小纬度按照以下公式将轨迹映射到网格数据中;
inter_lat=(max_lat-min_lat)/grid_width
inter_lon=(max_lon-min_lon)/grid_height
grid_lat=int((max_lat-float(lat))/inter_lat)
grid_lon=int((float(lon)-min_lon)/inter_lon)
其中inter_lat,inter_lon分别表示当前轨迹段的经纬度映射精度,max_lat,min_lat,max_lon,min_lon分别表示当前轨迹段最大纬度,最小纬度,最大经度和最小经度;float(lat)、(float(lon)表示纬度、经度的浮点数,grid_lat、grid_lon表示网格纬度和网格经度。
第3步:将步骤2中得到的一组网格标识序列输入到改进的DenseNet模型中,已知用户轨迹数据作为训练集,匿名用户轨迹数据作为测试集;对训练集经过若干次迭代、训练,得到训练好的模型;
在前面网络层和后面的网络层之间建立short path,在保证网络中层与层之间最大程度的信息传输的前提下,直接将所有层连接起来。每一层的输入来自前面所有层的输出,具体为xl=Hl([x0,x1,…,x(l-1)]),[x0,x1,…,x(l-1)]表示将0到l-1层的输出featuremap在通道上concatenation。
改进的DenseNet模型,由多个Dense Block组成,并引入了注意力机制,block内部结构为BN-ReLU-Conv(1×1)-BN-ReLU-Conv(3×3);每个Dense Block的之间层为transition layers,由BN->Conv(1×1)->average Pooling(2×2)组成。通过堆叠Attention Dense Module,可以加强网络中特征的传播,同时也减少了网络的参数;
Transition Block模块主要由卷积层和池化层组成,其中卷积核大小为1×1,卷积核的个数为Dense Block模块输出特征图个数的α倍,0<α<1,从而达到降低特征图个数的目的。使用categorical cross-entropy函数作为损失函数,使用正确率作为主要评价指标外,还有每个类别的precision,recall和f1-score的加权平均。
改进的DenseNet模型使用keras和tensorflow来搭建。
第4步:将训练好的模型运用于匿名用户轨迹段数据,通过模型对轨迹的分类,将匿名数据与已知用户数据集中的数据对应,找到匿名用户轨迹数据对应的真实用户信息,从而达到轨迹数据去匿名效果。
本实施例中,第4步具体实现包括以下子步骤:
第4.1步:通过轨迹分类,将这些匿名轨迹与其对应的用户ID(mmsi)对应;
第4.2步:用户ID相同的轨迹段即为同一用户的轨迹数据,即完成了对假名用户的去匿名化,获取其真实用户信息。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。
Claims (5)
1.一种基于深度学习的轨迹数据去匿名方法,其特征在于,包括以下步骤:
步骤1:在预设的划分精度下,将轨迹数据空间划分为若干个网格形状的子空间;
步骤2:对于真实世界的轨迹数据集,将轨迹数据分为两组,一组是已知用户轨迹数据,另一组是匿名用户轨迹数据,将两组轨迹数据拆分成轨迹段,映射到网格数据中,从而得到所述轨迹数据对应的一组网格标识序列;
步骤3:将步骤2中得到的一组网格标识序列输入到改进的DenseNet模型中,已知用户轨迹数据作为训练集,匿名用户轨迹数据作为测试集;对训练集经过若干次迭代、训练,得到训练好的模型;
步骤4:将训练好的模型运用于匿名用户轨迹段数据,通过模型对轨迹的分类,将匿名数据与已知用户数据集中的数据对应,找到匿名用户轨迹数据对应的真实用户信息,从而达到轨迹数据去匿名效果。
2.根据权利要求1所述的基于深度学习的轨迹数据去匿名方法,其特征在于:步骤1中,网格形状的子空间大小设定为grid_width=16,grid_height=16。
3.根据权利要求1所述的基于深度学习的轨迹数据去匿名方法,其特征在于,步骤2的具体实现包括以下步骤:
步骤2.1:将轨迹数据用四元组表示为(mmsi,lat,lon,ti),其中mmsi表示移动目标、lon表示地理坐标经度、lat表示地理坐标维度、ti表示记录时间,作为网格数据映射的输入;
步骤2.2:将轨迹数据按不同用户拆分为若干个轨迹段,记录轨迹段中轨迹点的个数,取得每一个当前轨迹段最大纬度、最小纬度、最大经度和最小经度;
步骤2.3:利用记录的最大最小纬度按照以下公式将轨迹映射到网格数据中;
inter_lat=(max_lat-min_lat)/grid_width
inter_lon=(max_lon-min_lon)/grid_height
grid_lat=int((max_lat-float(lat))/inter_lat)
grid_lon=int((float(lon)-min_lon)/inter_lon)
其中,grid_width,grid_height表示网格形状的子空间大小,inter_lat,inter_lon分别表示当前轨迹段的经纬度映射精度,max_lat,min_lat,max_lon,min_lon分别表示当前轨迹段的最大纬度、最小纬度,最大经度和最小经度;float(lat)、float(lon)表示纬度、经度的浮点数,grid_lat、grid_lon表示网格纬度和网格经度。
4.根据权利要求3所述的基于深度学习的轨迹数据去匿名方法,其特征在于:步骤3中,所述改进的DenseNet模型,由多个Dense Block组成,并引入了注意力机制,block内部结构为BN-ReLU-Conv(1×1)-BN-ReLU-Conv(3×3);每个Dense Block的之间层为transitionlayers,由BN->Conv(1×1)->average Pooling(2×2)组成;通过堆叠Attention DenseModule,加强网络中特征的传播,同时也减少了网络的参数;
改进的DenseNet模型使用keras和tensorflow来搭建。
5.根据权利要求3或4任意一项所述的基于深度学习的轨迹数据去匿名方法,其特征在于:步骤4中,通过轨迹分类,将这些匿名轨迹与其对应的mmsi对应;mmsi相同的轨迹段即为同一用户的轨迹数据,即完成了对假名用户的去匿名化,获取其真实用户信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910631703.7A CN110502919B (zh) | 2019-07-12 | 2019-07-12 | 一种基于深度学习的轨迹数据去匿名方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910631703.7A CN110502919B (zh) | 2019-07-12 | 2019-07-12 | 一种基于深度学习的轨迹数据去匿名方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110502919A CN110502919A (zh) | 2019-11-26 |
CN110502919B true CN110502919B (zh) | 2022-11-18 |
Family
ID=68586083
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910631703.7A Active CN110502919B (zh) | 2019-07-12 | 2019-07-12 | 一种基于深度学习的轨迹数据去匿名方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110502919B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108259830B (zh) * | 2018-01-25 | 2019-08-23 | 深圳冠思大数据服务有限公司 | 基于云服务器的鼠患智能监控系统和方法 |
CN111814774B (zh) * | 2020-09-10 | 2020-12-18 | 熵智科技(深圳)有限公司 | 一种5d纹理网格数据结构 |
CN113641887A (zh) * | 2021-08-26 | 2021-11-12 | 河南工业大学 | 一种基于语义轨迹模式的移动轨迹去匿名方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103914659A (zh) * | 2014-03-12 | 2014-07-09 | 西安电子科技大学 | 基于频率的轨迹抑制数据发布隐私保护的系统及其方法 |
CN105160266A (zh) * | 2015-07-08 | 2015-12-16 | 北方信息控制集团有限公司 | 基于k-匿名的运动轨迹数据隐私保护方法与系统 |
CN107145796A (zh) * | 2017-04-24 | 2017-09-08 | 公安海警学院 | 一种不确定环境下轨迹数据k‑匿名隐私保护方法 |
-
2019
- 2019-07-12 CN CN201910631703.7A patent/CN110502919B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103914659A (zh) * | 2014-03-12 | 2014-07-09 | 西安电子科技大学 | 基于频率的轨迹抑制数据发布隐私保护的系统及其方法 |
CN105160266A (zh) * | 2015-07-08 | 2015-12-16 | 北方信息控制集团有限公司 | 基于k-匿名的运动轨迹数据隐私保护方法与系统 |
CN107145796A (zh) * | 2017-04-24 | 2017-09-08 | 公安海警学院 | 一种不确定环境下轨迹数据k‑匿名隐私保护方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110502919A (zh) | 2019-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110502919B (zh) | 一种基于深度学习的轨迹数据去匿名方法 | |
Chatzikokolakis et al. | Efficient utility improvement for location privacy | |
CN108536851B (zh) | 一种基于移动轨迹相似度比较的用户身份识别方法 | |
Primault et al. | Time distortion anonymization for the publication of mobility data with high utility | |
Yin et al. | GANs based density distribution privacy-preservation on mobility data | |
Chang et al. | Revealing privacy vulnerabilities of anonymous trajectories | |
CN111400747B (zh) | 一种基于轨迹隐私保护的度量方法 | |
Khazbak et al. | Deanonymizing mobility traces with co-location information | |
CN110602631B (zh) | Lbs中抵御推测攻击的位置数据的处理方法和处理装置 | |
CN116108984A (zh) | 基于流量-poi因果关系推理的城市流量预测方法 | |
Liang et al. | Mobile traffic prediction based on densely connected CNN for cellular networks in highway scenarios | |
CN112632614A (zh) | 一种偏好感知的轨迹匿名方法及系统 | |
Bakopoulou et al. | Location leakage in federated signal maps | |
CN113312596A (zh) | 一种基于深度学习和异步轨迹数据的用户身份识别方法 | |
Wen et al. | Privacy preserving trajectory data publishing with personalized differential privacy | |
Ma et al. | GWS-Geo: A graph neural network based model for street-level IPv6 geolocation | |
CN110851868A (zh) | 一种用于轨迹数据发布的位置代表元生成方法 | |
Zhang et al. | A Local Differential Privacy Trajectory Protection Method Based on Temporal and Spatial Restrictions for Staying Detection | |
Domingues et al. | Social Mix-zones: Anonymizing Personal Information on Contact Tracing Data | |
CN111539023B (zh) | 一种基于多次迭代过滤的移动轨迹数据隐私保护匹配方法 | |
Errounda et al. | An analysis of differential privacy research in location data | |
CN112069532B (zh) | 一种基于差分隐私的轨迹隐私保护方法与装置 | |
CN112995987B (zh) | 基于多目标优化问题的自适应路网语义位置隐私保护方法 | |
Chen et al. | Real-location reporting based differential privacy trajectory protection for mobile crowdsensing | |
Kaplan et al. | Location disclosure risks of releasing trajectory distances |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |