CN112948872B - 一种基于分段聚类的路网轨迹语义隐私保护方法 - Google Patents

一种基于分段聚类的路网轨迹语义隐私保护方法 Download PDF

Info

Publication number
CN112948872B
CN112948872B CN202110141538.4A CN202110141538A CN112948872B CN 112948872 B CN112948872 B CN 112948872B CN 202110141538 A CN202110141538 A CN 202110141538A CN 112948872 B CN112948872 B CN 112948872B
Authority
CN
China
Prior art keywords
segment
road network
track
class
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110141538.4A
Other languages
English (en)
Other versions
CN112948872A (zh
Inventor
徐红云
陆涛
田岑熙
蒋睿
旷勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202110141538.4A priority Critical patent/CN112948872B/zh
Publication of CN112948872A publication Critical patent/CN112948872A/zh
Application granted granted Critical
Publication of CN112948872B publication Critical patent/CN112948872B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Remote Sensing (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于分段聚类的路网轨迹语义隐私保护方法,包括步骤:1)预处理初始轨迹数据集,对轨迹进行重采样操作;2)基于MDL(最小描述长度)原则,对轨迹进行分段划分,获得轨迹分段数据集;3)基于路网距离对轨迹分段数据集中的轨迹分段进行聚类,形成分段类;4)确定分段类的路网领域,统计分段类的语义位置分布;5)基于分段类的语义位置分布,启发式生成匿名分段集,用匿名分段集代替单个轨迹进行数据发布,实现路网轨迹语义隐私保护。本发明用匿名分段集合替代单个轨迹进行数据发布,保护轨迹的语义隐私,将轨迹分段、聚类和启发式算法结合起来,提高匿名成功率和语义隐私保护效果,改善匿名数据质量。

Description

一种基于分段聚类的路网轨迹语义隐私保护方法
技术领域
本发明涉及网络安全和隐私保护的技术领域,尤其是指一种基于分段聚类的路网轨迹语义隐私保护方法。
背景技术
随着定位技术的发展和移动终端设备的普及,越来越多的时空位置数据被收集,作为轨迹数据存储。轨迹数据拥有丰富的信息,发布这些数据,对交通监控、城市规划等领域具有重要应用价值。然而轨迹数据和个人信息紧密相关,不经过保护处理直接发布轨迹数据,会造成严重的隐私泄露。
现有的k匿名保护模型泛化轨迹,让整条轨迹或单个轨迹点加入有至少k个用户的匿名集中。这类方案存在三种问题,导致匿名成功率低,语义保护效果弱,匿名数据质量差。一是忽视轨迹自身的状态,当一条长轨迹移动方向或模式发生较大变化时,需要对轨迹做分段处理,针对轨迹分段做泛化,精确度更高;二是没有考虑位置语义,如果匿名集语义分布单一或不均匀,攻击者仍可以获得用户的敏感语义信息;三是基于欧几里得空间计算距离,不符合路网的实际情况,用户需要按照路网拓扑在两个位置之间移动,移动距离往往不是两个位置的欧几里得距离。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出了一种基于分段聚类的路网轨迹语义隐私保护方法,该方法对轨迹进行分段划分,并对轨迹分段进行聚类,获得轨迹分段所属的地图区域,轨迹分段基于更精确的背景语义分布进行细粒度地泛化,从而提高匿名成功率和语义隐私保护效果,改善匿名数据质量。
为实现上述目的,本发明所提供的技术方案为:一种基于分段聚类的路网轨迹语义隐私保护方法,包括以下步骤:
1)预处理初始轨迹数据集,对轨迹进行重采样操作;
2)基于MDL(最小描述长度)原则,对轨迹进行分段划分,获得轨迹分段数据集;
3)基于路网距离对轨迹分段数据集中的轨迹分段进行聚类,形成分段类;
4)确定分段类的路网领域,统计分段类的语义位置分布;
5)基于分段类的语义位置分布,启发式生成匿名分段集,用匿名分段集代替单个轨迹进行数据发布,实现路网轨迹语义隐私保护。
在步骤1)中,初始轨迹数据集中的一条轨迹表示为T={uid,(p1,p2,…,pn)},其中uid为轨迹的用户标识,pi=(xi,yi,ti)为构成轨迹的位置点,表示用户在ti时刻经纬度为xi和yi,i=1,2,…,n;预处理过程对轨迹T执行以下重采样算法:
1.1)从起始点p1开始遍历轨迹T;
1.2)记录相邻点pi和pi+1之间,i=1,2,…,n-1,轨迹经过的路网结点,假设该路网结点表示为pj,插入到pi和pi+1之间,pj=(xj,yj,tj),路网结点经纬度xj和yj由路网图得到,用户在该路网结点的时刻tj由式(1)计算:
Figure BDA0002928807160000021
其中,path(pi,pi+1)是从pi到pi+1的轨迹长度,path(pi,pj)是从pi到pj的轨迹长度,pi.t表示点pi的时刻,pi+1.t表示点pi+1的时刻;
1.3)保留轨迹的起始点、终止点和插入的路网结点,将其它点删除;
1.4)处理所有轨迹,获得重采样轨迹数据集。
在步骤2)中,基于MDL(最小描述长度)原则,使用贪心算法寻找轨迹中的特征点,并将特征点的前一个点作为划分点,对轨迹做分段划分,获得轨迹分段数据集。
在步骤3)中,进行如下定义:
定义1、路网距离dr
将路网抽象成无向网,路网中边长作为无向网中边的权重;如果p和q都是路网结点,路网距离dr(p,q)是无向网中两点的最短路径长度;如果p是路网边上的点,q是路网结点,从p到q的路径上找到离p最近的路网结点v,路网距离dr(p,q)是p和v的欧几里得距离与dr(v,q)的和;
定义2、分段空间距离dH
两个轨迹分段TPi=(p1,p2,…,pn)和TPj=(q1,q2,…,qm),其中p1到pn是构成分段TPi的位置点,q1到qm是构成分段TPj的位置点;dH(TPi,TPj)是分段TPi和TPj之间的分段空间距离,由式(2)计算:
dH(TPi,TPj)=max(h(TPi,TPj),h(TPj,TPi)) (2)
其中,h(TPi,TPj)是从TPi到TPj的单向Hausdorff距离,h(TPj,TPi)是从TPj到TPi的单向Hausdorff距离,都基于路网距离,由式(3)计算:
Figure BDA0002928807160000031
定义3、分段时间距离dt
dt(TPi,TPj)是分段TPi和TPj之间的分段时间距离,由式(4)计算:
dt(TPi,TPj)=|p1.t-q1.t|+|pn.t-qm.t| (4)
其中,p1.t表示分段TPi起始点p1的时刻,pn.t表示分段TPi终止点pn的时刻,q1.t表示分段TPj起始点q1的时刻,qm.t表示分段TPj终止点qm的时刻;
定义4、分段时空距离dist
dist(TPi,TPj)表示轨迹分段TPi和TPj的时空距离,是标准化分段空间距离dH和标准化分段时间距离dt的和,由式(5)计算:
Figure BDA0002928807160000041
其中,maxdH和mindH是轨迹分段数据集中最大和最小分段空间距离,maxdt和mindt是轨迹分段数据集中最大和最小分段时间距离;
定义5、分段类中心点cp
分段类中心点cp的经纬度是一个分段类C中所有分段的点的经纬度均值,cp的经纬度x和y由式(6)计算:
Figure BDA0002928807160000042
其中,TP是分段类C中的分段,p是构成分段TP的位置点,p.x和p.y分别是点p的经度和纬度;
定义6、聚类质心cen
聚类迭代一轮后,分段类C计算新的聚类质心,选择离分段类中心点cp距离最近的路网边作为新的聚类质心cen,并将路网边的两个端点作为cen的起始点ps和终止点pe,经纬度由路网图获得,起始/终止时间是分段类中所有分段起始/终止时间的均值,由式(7)计算:
Figure BDA0002928807160000043
其中,ps.t和pe.t表示聚类质心的起始和终止时间,TP.p1.t表示分段TP的起始点时间,TP.pn.t表示分段TP的终止点时间;
然后,对轨迹分段数据集执行K-means聚类算法:
3.1)在轨迹分段数据集中随机选择K个分段作为初始聚类质心cen,每个质心代表一个分段类;
3.2)遍历其余每个分段,计算该分段到各个聚类质心的分段时空距离dist,选择最小dist对应的分段类加入;
3.3)重新计算每个分段类的聚类质心cen;
3.4)重复步骤3.2)和3.3),直到最大迭代次数;
3.5)获得分段类的集合。
在步骤4)中,语义位置分布在路网边上,按照如下步骤确定分段类的路网领域,路网领域是分段类在路网图中的覆盖区域,由该区域所有路网边的集合表示;
4.1)统计分段类中分段经过的路网边,作为分段类的路网领域;
4.2)计算各个分段类中心cp,经纬度是一个分段类C中所有分段的点的经纬度均值;
4.3)计算非轨迹分段的路网边到各个cp的距离,选择最小距离的分段类,加入路网领域中;
4.3)统计分段类路网领域的语义位置数量,获得各个分段类语义位置分布。
在步骤5)中,定义语义隐私需求profile=(k,l,δ),k-匿名性要求匿名集合中至少有k个用户的轨迹分段,l-多样性要求匿名集合中至少有l种语义位置,δ-邻近性要求匿名集语义位置分布X和所属分段类的语义位置分布Y相似,用KL聚合度记为δ来计算分布X和分布Y的差异,由式(8)计算,其中u是语义位置种类,Xu表示第u种语义位置的数量在匿名集语义位置数量中的占比,Yu表示第u种语义位置的数量在分段类语义位置数量中的占比;指定阈值δt后,当δ≤δt,匿名集满足δ-邻近性;
Figure BDA0002928807160000061
然后,执行启发式算法,在分段类中生成匿名分段集:
5.1)计算分段类中所有分段之间的分段时空距离dist,用数组Dist[][]存储;
5.2)选择dist最小的两个分段进行结合,将对应的Dist数组值设为内存最大值,表示已结合;存在三种结合情况:将两个孤立分段结合为新集合、将一个孤立分段加入到已有集合、将两个已有集合进行合并;
5.3)重复步骤5.2),当出现集合满足k-匿名性时,将该集合从分段类中删除;
5.4)重复步骤5.3),直到剩余分段无法结合成满足要求的集合时停止,此时分段类生成多个匿名集,将剩余分段加入到dist最近的匿名集中;
5.5)判断每个匿名集是否满足profile,若不满足,从分段类路网领域中加入集合没有的路网边,直到满足profile;
5.6)用匿名分段集代替单个轨迹进行数据发布。
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明考虑实际轨迹移动方向和模式的多变性,对轨迹进行分段划分,不同分段可以按需泛化到不同的匿名集中,实现轨迹分段的细粒度泛化,降低匿名集中的数据损失,改善匿名数据质量。
2、本发明将轨迹分段进行聚类,生成多个分段类。在分段类中生成匿名集时,用该分段类的语义位置分布作为语义参照,实现更精确的语义隐私保护,提高语义隐私保护效果。
3、本发明轨迹分段后,分段端点都是路网结点,是实际路网中的路口,道路方向不唯一,避免攻击者连接分段恢复轨迹,抗攻击能力强。
4、本发明采用路网距离代替欧几里得距离,更符合实际路网情况。
5、本发明生成匿名集时,先快速结合时空距离最近的分段满足k-匿名要求,然后增加外部路网边满足语义要求,可以降低匿名集中的数据损失,改善匿名数据质量。
附图说明
图1是本发明方法的流程图。
图2是轨迹重采样的示意图;图中,A、B和C是路网结点,a和b是轨迹结点,细线是路网边,粗线是轨迹。
图3是轨迹分段聚类的示意图;图中,cen1和cen2是两个聚类质心,代表两个分段类,TP是一条轨迹分段,细线是路网边,粗线是轨迹。
图4是匿名集生成的示意图;图中,TP1、TP2、TP3和TP4是轨迹分段,虚线圆圈表示一个分段类,细线是路网边,粗线是轨迹。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
如图1所示,本实施例所提供的基于分段聚类的路网轨迹语义隐私保护方法,结合分段、聚类和启发式算法生成匿名分段集合,包括以下步骤:
1)预处理初始轨迹数据集,对轨迹进行重采样操作;其中,初始轨迹数据集中的一条轨迹表示为T={uid,(p1,p2,…,pn)},其中uid为轨迹的用户标识,pi=(xi,yi,ti)为构成轨迹的位置点,表示用户在ti时刻经纬度为xi和yi,i=1,2,…,n;预处理过程对轨迹T执行以下重采样算法:
1.1)从起始点p1开始遍历轨迹T;
1.2)记录相邻点pi和pi+1之间,i=1,2,…,n-1,轨迹经过的路网结点,假设该路网结点表示为pj,插入到pi和pi+1之间,pj=(xj,yj,tj),路网结点经纬度xj和yj由路网图得到,用户在该路网结点的时刻tj由式(1)计算:
Figure BDA0002928807160000081
其中,path(pi,pi+1)是从pi到pi+1的轨迹长度,path(pi,pj)是从pi到pj的轨迹长度,pi.t表示点pi的时刻,pi+1.t表示点pi+1的时刻;
1.3)保留轨迹的起始点、终止点和插入的路网结点,将其它点删除;
1.4)处理所有轨迹,获得重采样轨迹数据集。
2)基于MDL(最小描述长度)原则,使用贪心算法寻找轨迹中的特征点,并将特征点的前一个点作为划分点,对轨迹做分段划分,获得轨迹分段数据集。
3)基于路网距离对轨迹分段数据集中的轨迹分段进行聚类,形成分段类,具体如下:
首先,进行如下定义:
定义1、路网距离dr
将路网抽象成无向网,路网中边长作为无向网中边的权重;如果p和q都是路网结点,路网距离dr(p,q)是无向网中两点的最短路径长度;如果p是路网边上的点,q是路网结点,从p到q的路径上找到离p最近的路网结点v,路网距离dr(p,q)是p和v的欧几里得距离与dr(v,q)的和;
定义2、分段空间距离dH
两个轨迹分段TPi=(p1,p2,…,pn)和TPj=(q1,q2,…,qm),其中p1到pn是构成分段TPi的位置点,q1到qm是构成分段TPj的位置点;dH(TPi,TPj)是分段TPi和TPj之间的分段空间距离,由式(2)计算:
dH(TPi,TPj)=max(h(TPi,TPj),h(TPj,TPi)) (2)
其中,h(TPi,TPj)是从TPi到TPj的单向Hausdorff距离,h(TPj,TPi)是从TPj到TPi的单向Hausdorff距离,都基于路网距离,由式(3)计算:
Figure BDA0002928807160000091
定义3、分段时间距离dt
dt(TPi,TPj)是分段TPi和TPj之间的分段时间距离,由式(4)计算:
dt(TPi,TPj)=|p1.t-q1.t|+|pn.t-qm.t| (4)
其中,p1.t表示分段TPi起始点p1的时刻,pn.t表示分段TPi终止点pn的时刻,q1.t表示分段TPj起始点q1的时刻,qm.t表示分段TPj终止点qm的时刻;
定义4、分段时空距离dist
dist(TPi,TPj)表示轨迹分段TPi和TPj的时空距离,是标准化分段空间距离dH和标准化分段时间距离dt的和,由式(5)计算:
Figure BDA0002928807160000092
其中,maxdH和mindH是轨迹分段数据集中最大和最小分段空间距离,maxdt和mindt是轨迹分段数据集中最大和最小分段时间距离;
定义5、分段类中心点cp
分段类中心点cp的经纬度是一个分段类C中所有分段的点的经纬度均值,cp的经纬度x和y由式(6)计算:
Figure BDA0002928807160000101
其中,TP是分段类C中的分段,p是构成分段TP的位置点,p.x和p.y分别是点p的经度和纬度;
定义6、聚类质心cen
聚类迭代一轮后,分段类C计算新的聚类质心,选择离分段类中心点cp距离最近的路网边作为新的聚类质心cen,并将路网边的两个端点作为cen的起始点ps和终止点pe,经纬度由路网图获得,起始/终止时间是分段类中所有分段起始/终止时间的均值,由式(7)计算:
Figure BDA0002928807160000102
其中,ps.t和pe.t表示聚类质心的起始和终止时间,TP.p1.t表示分段TP的起始点时间,TP.pn.t表示分段TP的终止点时间;
然后,对轨迹分段数据集执行K-means聚类算法:
3.1)在轨迹分段数据集中随机选择K个分段作为初始聚类质心cen,每个质心代表一个分段类;
3.2)遍历其余每个分段,计算该分段到各个聚类质心的分段时空距离dist,选择最小dist对应的分段类加入;
3.3)重新计算每个分段类的聚类质心cen;
3.4)重复步骤3.2)和3.3),直到最大迭代次数;
3.5)获得分段类的集合。
4)确定分段类的路网领域,统计分段类的语义位置分布;其中,语义位置分布在路网边上,按照如下步骤确定分段类的路网领域,路网领域是分段类在路网图中的覆盖区域,由该区域所有路网边的集合表示;
4.1)统计分段类中分段经过的路网边,作为分段类的路网领域;
4.2)计算各个分段类中心cp,经纬度是一个分段类C中所有分段的点的经纬度均值;
4.3)计算非轨迹分段的路网边到各个cp的距离,选择最小距离的分段类,加入路网领域中;
4.3)统计分段类路网领域的语义位置数量,获得各个分段类语义位置分布。
5)基于分段类的语义位置分布,启发式生成匿名分段集,用匿名分段集代替单个轨迹进行数据发布,实现路网轨迹语义隐私保护,具体如下:
定义语义隐私需求profile=(k,l,δ),k-匿名性要求匿名集合中至少有k个用户的轨迹分段,l-多样性要求匿名集合中至少有l种语义位置,δ-邻近性要求匿名集语义位置分布X和所属分段类的语义位置分布Y相似,用KL聚合度记为δ来计算分布X和分布Y的差异,由式(8)计算,其中u是语义位置种类,Xu表示第u种语义位置的数量在匿名集语义位置数量中的占比,Yu表示第u种语义位置的数量在分段类语义位置数量中的占比;指定阈值δt后,当δ≤δt,匿名集满足δ-邻近性;
Figure BDA0002928807160000111
然后,执行启发式算法,在分段类中生成匿名分段集:
5.1)计算分段类中所有分段之间的分段时空距离dist,用数组Dist[][]存储;
5.2)选择dist最小的两个分段进行结合,将对应的Dist数组值设为内存最大值,表示已结合;存在三种结合情况:将两个孤立分段结合为新集合、将一个孤立分段加入到已有集合、将两个已有集合进行合并;
5.3)重复步骤5.2),当出现集合满足k-匿名性时,将该集合从分段类中删除;
5.4)重复步骤5.3),直到剩余分段无法结合成满足要求的集合时停止,此时分段类生成多个匿名集,将剩余分段加入到dist最近的匿名集中;
5.5)判断每个匿名集是否满足profile,若不满足,从分段类路网领域中加入集合没有的路网边,直到满足profile;
5.6)用匿名分段集代替单个轨迹进行数据发布。
下面我们结合具体数据对本实施例上述路网轨迹语义隐私保护方法作进一步描述,其具体情况如下:
1)对收集到的初始轨迹数据集做预处理,对轨迹进行重采样,将轨迹经过的路网结点插入轨迹,通过路网图获取路网结点的坐标,通过计算得到路网结点的时刻,保留起始点、路网结点和终止点,将轨迹上其它点删除。如图2所示,路网结点A坐标是(0,2),B坐标是(2,2),C坐标是(4,0)。粗线表示一条轨迹(a,b),a=(1,2,1.0)表示a在1.0s时刻的坐标,b=(3,1,2.0)表示b在2.0s时刻的坐标。轨迹从a到b路过路网结点B,轨迹重采样后变为(a,B,b),B的坐标从路网图获得,用户在B的时间t计算如下:
Figure BDA0002928807160000121
2)对重采样后的轨迹进行分段划分,基于MDL(最小描述长度)原则,使用贪心算法寻找接近的最优分段结果。使用MDLpar(pi,pj)表示轨迹从pi到pj独立成一个分段时,描述轨迹所需要的MDL成本。使用MDLnopar(pi,pj)表示轨迹从pi到pj不进行分段时,描述该轨迹所需要的MDL成本。如果MDLpar(pi,pj)>MDLnopar(pi,pj),说明找到一个局部最长的轨迹分段(pi,pj-1),在pj的前一个节点做分段划分。
3)对轨迹分段进行聚类,第一轮聚类随机选择K个分段作为聚类质心,其他分段选择时空距离最小的质心对应的分段类加入。第二轮聚类,重新选择分段类的聚类质心,首先计算分段类中心点,然后选择距离中心点最近的路网边作为新的聚类质心,并计算起始和终止时间,进行新一轮的聚类,重复该过程直到最大迭代次数,聚类完成。如图3所示,在第一轮聚类中,轨迹分段cen1和cen2作为两个分段类的聚类质心,轨迹分段TP需要选择时空距离dist最近的分段类加入。假设轨迹序列cen1={(1,5,1.0),(2,5,2.0),(3,5,3.0)},
TP={(1,3,1.0),(2,3,2.0),(3,3,3.0),(4,3,4.0)},
cen2={(2,1,2.0),(3,1,3.5),(4,1,5.0)},
maxdH=5,mindH=1,maxdt=5,mindt=1。
分段时空距离dist(TP,cen1)计算过程如下:
Figure BDA0002928807160000131
dt(TP,cen1)=|p1.t-q1.t|+|pn.t-qm.t|=|1.0-1.0|+|4.0-3.0|=1
Figure BDA0002928807160000132
同理可计算dist(TP,cen2)=0.75,选择最小的dist,将TP加入到cen1代表的分段类中。第二轮聚类时,重新选择cen1和TP所在分段类C的质心,首先计算分段类中心cp的经纬度x和y:
Figure BDA0002928807160000141
Figure BDA0002928807160000142
然后将距离cp(2.29,3.86)中心点最近的路网边作为新的聚类质心cen,并计算cen的起始和终止时间:
Figure BDA0002928807160000143
4)聚类完成后,轨迹数据集变成多个分段类,统计分段类的语义位置分布,例如分段类的路网领域中有医院10个,学校20个,商场20个,那么语义位置分布Y中,医院是0.2,学校是0.4,商场是0.4,作为匿名集语义位置分布X的参照背景。
5)在分段类中生成满足profile的匿名集,反复将分段类中分段时空距离最小的两个分段结合成一个集合,此时有三种情况:将两个孤立分段结合为新集合、将一个孤立分段加入到已有集合、将两个已有集合进行合并。当出现一个集合中用户数量满足k-匿名性时,将该集合从分段类中取出,并插入外部路网边满足语义要求。如图4所示,TP1、TP2、TP3和TP4是轨迹分段,现TP1和TP2是一个匿名集,想要满足profile=(k=3,l=3,δ=0.06),要继续结合。计算TP3到匿名集的距离是min(dist(TP3,TP1),dist(TP3,TP2),TP4到匿名集的距离是min(dist(TP4,TP1),dist(TP4,TP2)。如果TP3更近,将TP3加入到匿名集中,满足k-匿名性要求,从分段类中删除,判断该匿名集是否满足profile。假设分段类的语义位置分布Y中,医院是0.2,学校是0.4,商场是0.4。如果匿名集中语义有医院3个,学校3个,商场4个,那么匿名集满足l-多样性,匿名集语义分布X中,医院是0.3,学校是0.3,商场是0.4。δ计算如下:
Figure BDA0002928807160000151
δ小于阈值0.06,满足δ-临近性。该匿名集满足profile,可直接发布。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (5)

1.一种基于分段聚类的路网轨迹语义隐私保护方法,其特征在于,包括以下步骤:
1)预处理初始轨迹数据集,对轨迹进行重采样操作;
初始轨迹数据集中的一条轨迹表示为T={uid,(p1,p2,…,pn)},其中uid为轨迹的用户标识,pi=(xi,yi,ti)为构成轨迹的位置点,表示用户在ti时刻经纬度为xi和yi,i=1,2,…,n;预处理过程对轨迹T执行以下重采样算法:
1.1)从起始点p1开始遍历轨迹T;
1.2)记录相邻点pi和pi+1之间轨迹经过的路网结点,其中,i=1,2,…,n-1,假设该路网结点表示为pj,插入到pi和pi+1之间,pj=(xj,yj,tj),路网结点经纬度xj和yj由路网图得到,用户在该路网结点的时刻tj由式(1)计算:
Figure FDA0003836736990000011
其中,path(pi,pi+1)是从pi到pi+1的轨迹长度,path(pi,pj)是从pi到pj的轨迹长度,pi.t表示点pi的时刻,pi+1.t表示点pi+1的时刻;
1.3)保留轨迹的起始点、终止点和插入的路网结点,将其它点删除;
1.4)处理所有轨迹,获得重采样轨迹数据集;
2)基于最小描述长度MDL原则,对轨迹进行分段划分,获得轨迹分段数据集;
3)基于路网距离对轨迹分段数据集中的轨迹分段进行聚类,形成分段类;
4)确定分段类的路网领域,统计分段类的语义位置分布;
5)基于分段类的语义位置分布,启发式生成匿名分段集,用匿名分段集代替单个轨迹进行数据发布,实现路网轨迹语义隐私保护。
2.根据权利要求1所述的一种基于分段聚类的路网轨迹语义隐私保护方法,其特征在于,在步骤2)中,基于最小描述长度MDL原则,使用贪心算法寻找轨迹中的特征点,并将特征点的前一个点作为划分点,对轨迹做分段划分,获得轨迹分段数据集。
3.根据权利要求1所述的一种基于分段聚类的路网轨迹语义隐私保护方法,其特征在于,在步骤3)中,进行如下定义:
定义1、路网距离dr
将路网抽象成无向网,路网中边长作为无向网中边的权重;如果p和q都是路网结点,路网距离dr(p,q)是无向网中两点的最短路径长度;如果p是路网边上的点,q是路网结点,从p到q的路径上找到离p最近的路网结点v,路网距离dr(p,q)是p和v的欧几里得距离与dr(v,q)的和;
定义2、分段空间距离dH
两个轨迹分段TPi=(p1,p2,…,pn)和TPj=(q1,q2,…,qm),其中p1到pn是构成分段TPi的位置点,q1到qm是构成分段TPj的位置点;dH(TPi,TPj)是分段TPi和TPj之间的分段空间距离,由式(2)计算:
dH(TPi,TPj)=max(h(TPi,TPj),h(TPj,TPi)) (2)
其中,h(TPi,TPj)是从TPi到TPj的单向Hausdorff距离,h(TPj,TPi)是从TPj到TPi的单向Hausdorff距离,都基于路网距离,由式(3)计算:
Figure FDA0003836736990000021
定义3、分段时间距离dt
dt(TPi,TPj)是分段TPi和TPj之间的分段时间距离,由式(4)计算:
dt(TPi,TPj)=|p1.t-q1.t|+|pn.t-qm.t| (4)
其中,p1.t表示分段TPi起始点p1的时刻,pn.t表示分段TPi终止点pn的时刻,q1.t表示分段TPj起始点q1的时刻,qm.t表示分段TPj终止点qm的时刻;
定义4、分段时空距离dist
dist(TPi,TPj)表示轨迹分段TPi和TPj的时空距离,是标准化分段空间距离dH和标准化分段时间距离dt的和,由式(5)计算:
Figure FDA0003836736990000031
其中,maxdH和mindH是轨迹分段数据集中最大和最小分段空间距离,maxdt和mindt是轨迹分段数据集中最大和最小分段时间距离;
定义5、分段类中心点cp
分段类中心点cp的经纬度是一个分段类C中所有分段的点的经纬度均值,cp的经纬度x和y由式(6)计算:
Figure FDA0003836736990000032
其中,TP是分段类C中的分段,p是构成分段TP的位置点,p.x和p.y分别是点p的经度和纬度;
定义6、聚类质心cen
聚类迭代一轮后,分段类C计算新的聚类质心,选择离分段类中心点cp距离最近的路网边作为新的聚类质心cen,并将路网边的两个端点作为cen的起始点ps和终止点pe,经纬度由路网图获得,起始/终止时间是分段类中所有分段起始/终止时间的均值,由式(7)计算:
Figure FDA0003836736990000041
其中,ps.t和pe.t表示聚类质心的起始和终止时间,TP.p1.t表示分段TP的起始点时间,TP.pn.t表示分段TP的终止点时间;
然后,对轨迹分段数据集执行K-means聚类算法:
3.1)在轨迹分段数据集中随机选择K个分段作为初始聚类质心cen,每个质心代表一个分段类;
3.2)遍历其余每个分段,计算该分段到各个聚类质心的分段时空距离dist,选择最小dist对应的分段类加入;
3.3)重新计算每个分段类的聚类质心cen;
3.4)重复步骤3.2)和3.3),直到最大迭代次数;
3.5)获得分段类的集合。
4.根据权利要求1所述的一种基于分段聚类的路网轨迹语义隐私保护方法,其特征在于,在步骤4)中,语义位置分布在路网边上,按照如下步骤确定分段类的路网领域,路网领域是分段类在路网图中的覆盖区域,由该区域所有路网边的集合表示;
4.1)统计分段类中分段经过的路网边,作为分段类的路网领域;
4.2)计算各个分段类中心cp,经纬度是一个分段类C中所有分段的点的经纬度均值;
4.3)计算非轨迹分段的路网边到各个cp的距离,选择最小距离的分段类,加入路网领域中;
4.3)统计分段类路网领域的语义位置数量,获得各个分段类语义位置分布。
5.根据权利要求1所述的一种基于分段聚类的路网轨迹语义隐私保护方法,其特征在于,在步骤5)中,定义语义隐私需求profile=(k,l,δ),k-匿名性要求匿名集合中至少有k个用户的轨迹分段,l-多样性要求匿名集合中至少有l种语义位置,δ-邻近性要求匿名集语义位置分布X和所属分段类的语义位置分布Y相似,用KL聚合度记为δ来计算分布X和分布Y的差异,由式(8)计算,其中u是语义位置种类,Xu表示第u种语义位置的数量在匿名集语义位置数量中的占比,Yu表示第u种语义位置的数量在分段类语义位置数量中的占比;指定阈值δt后,当δ≤δt,匿名集满足δ-邻近性;
Figure FDA0003836736990000051
然后,执行启发式算法,在分段类中生成匿名分段集:
5.1)计算分段类中所有分段之间的分段时空距离dist,用数组Dist[][]存储;
5.2)选择dist最小的两个分段进行结合,将对应的Dist数组值设为内存最大值,表示已结合;存在三种结合情况:将两个孤立分段结合为新集合、将一个孤立分段加入到已有集合、将两个已有集合进行合并;
5.3)重复步骤5.2),当出现集合满足k-匿名性时,将该集合从分段类中删除;
5.4)重复步骤5.3),直到剩余分段无法结合成满足要求的集合时停止,此时分段类生成多个匿名集,将剩余分段加入到dist最近的匿名集中;
5.5)判断每个匿名集是否满足profile,若不满足,从分段类路网领域中加入集合没有的路网边,直到满足profile;
5.6)用匿名分段集代替单个轨迹进行数据发布。
CN202110141538.4A 2021-02-02 2021-02-02 一种基于分段聚类的路网轨迹语义隐私保护方法 Active CN112948872B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110141538.4A CN112948872B (zh) 2021-02-02 2021-02-02 一种基于分段聚类的路网轨迹语义隐私保护方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110141538.4A CN112948872B (zh) 2021-02-02 2021-02-02 一种基于分段聚类的路网轨迹语义隐私保护方法

Publications (2)

Publication Number Publication Date
CN112948872A CN112948872A (zh) 2021-06-11
CN112948872B true CN112948872B (zh) 2023-03-24

Family

ID=76241421

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110141538.4A Active CN112948872B (zh) 2021-02-02 2021-02-02 一种基于分段聚类的路网轨迹语义隐私保护方法

Country Status (1)

Country Link
CN (1) CN112948872B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113672975B (zh) * 2021-08-03 2024-06-28 支付宝(杭州)信息技术有限公司 一种用户轨迹的隐私保护方法和装置
CN113946867B (zh) * 2021-10-21 2024-05-31 福建工程学院 基于空间影响力的位置隐私保护方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103116614A (zh) * 2013-01-25 2013-05-22 北京奇艺世纪科技有限公司 一种基于用户轨迹的协同过滤推荐方法、装置及系统
CN104754509A (zh) * 2014-10-31 2015-07-01 南京邮电大学 基于位置语义k-匿名的lbs隐私保护方法
CN105760780A (zh) * 2016-02-29 2016-07-13 福建师范大学 基于路网的轨迹数据隐私保护方法
CN109165527A (zh) * 2018-08-28 2019-01-08 东北大学 支持个性化隐私的轨迹敏感数据保护方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11562168B2 (en) * 2018-07-16 2023-01-24 Here Global B.V. Clustering for K-anonymity in location trajectory data
US10663305B2 (en) * 2018-07-16 2020-05-26 Here Global B.V. Map matched aggregation for K-anonymity in trajectory data
US11455427B2 (en) * 2018-07-24 2022-09-27 Arizona Board Of Regents On Behalf Of Arizona State University Systems, methods, and apparatuses for implementing a privacy-preserving social media data outsourcing model

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103116614A (zh) * 2013-01-25 2013-05-22 北京奇艺世纪科技有限公司 一种基于用户轨迹的协同过滤推荐方法、装置及系统
CN104754509A (zh) * 2014-10-31 2015-07-01 南京邮电大学 基于位置语义k-匿名的lbs隐私保护方法
CN105760780A (zh) * 2016-02-29 2016-07-13 福建师范大学 基于路网的轨迹数据隐私保护方法
CN109165527A (zh) * 2018-08-28 2019-01-08 东北大学 支持个性化隐私的轨迹敏感数据保护方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
一种基于匿名区域变换的位置隐私保护方法;肖燕芳,徐红云;《计算机工程》;20130131;第39卷(第1期);第157-163页 *
基于Voronoi图的路网轨迹隐私保护研究;肖剑川等;《信息网络安全》;20160610(第06期);第20-26页 *
基于语义位置保护的轨迹隐私保护的k-CS算法;霍峥等;《计算机应用》;20180110(第01期);第188-193页 *
轨迹数据隐私保护综述;顾贞等;《网络空间安全》;20191125(第11期);第36-44页 *

Also Published As

Publication number Publication date
CN112948872A (zh) 2021-06-11

Similar Documents

Publication Publication Date Title
CN112948872B (zh) 一种基于分段聚类的路网轨迹语义隐私保护方法
CN108536851B (zh) 一种基于移动轨迹相似度比较的用户身份识别方法
US8478054B2 (en) Method and system for text classification
CN105760780B (zh) 基于路网的轨迹数据隐私保护方法
CN111680102A (zh) 基于人工智能的定位数据处理方法及相关设备
CN108280472A (zh) 一种基于局部密度和聚类中心优化的密度峰聚类方法
CN110162997B (zh) 基于插值点的匿名隐私保护方法
WO2017177965A1 (zh) 一种基于时间顺序的轨迹匹配方法
CN112579921B (zh) 基于倒排序索引及前缀树的轨迹索引和查询方法及系统
CN109327485A (zh) 一种位置信息的隐匿方法及位置服务器
CN111292356A (zh) 运动轨迹与道路的匹配方法及装置
Ferreira et al. A deep learning approach for identifying user communities based on geographical preferences and its applications to urban and environmental planning
AU2020286320B2 (en) Multi-granularity spark super trust fuzzy method applied to large-scale brain medical record segmentation
CN113902220A (zh) 一种基于自适应密度聚类算法车辆轨迹预测方法
CN112668040B (zh) 一种基于语义的轨迹聚类隐私保护方法
CN111026930B (zh) 一种基于轨迹分段的轨迹数据隐私保护方法
KR102127769B1 (ko) 도로 네트워크에서 k-최근접 이웃 조인 질의 처리 방법 및 도로 네트워크에서 k-최근접 조인 질의를 처리하는 장치
Peng et al. Tracklet siamese network with constrained clustering for multiple object tracking
CN113806028A (zh) 一种空间众包任务分配方法及系统、计算机可读存储介质
CN113553516A (zh) 一种基于模糊路径的频繁轨迹挖掘方法
CN112866934B (zh) 地铁用户识别方法与系统
Haghighat et al. Data clustering using bee colony optimization
S. de Sousa et al. A cluster-based framework for predicting large scale road-network constrained trajectories
Somisetti et al. Efficient Clustering of Water Distribution Network Using Affinity Propagation.
Liu et al. Continuous clustering of moving objects in spatial networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant