CN114444123A - 基于语义信息的匿名轨迹隐私保护方法 - Google Patents

基于语义信息的匿名轨迹隐私保护方法 Download PDF

Info

Publication number
CN114444123A
CN114444123A CN202210087301.7A CN202210087301A CN114444123A CN 114444123 A CN114444123 A CN 114444123A CN 202210087301 A CN202210087301 A CN 202210087301A CN 114444123 A CN114444123 A CN 114444123A
Authority
CN
China
Prior art keywords
track
anonymous
sub
tracks
space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210087301.7A
Other languages
English (en)
Other versions
CN114444123B (zh
Inventor
蒋洪波
吴林清
肖竹
王孟源
曾凡仔
刘代波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN202210087301.7A priority Critical patent/CN114444123B/zh
Publication of CN114444123A publication Critical patent/CN114444123A/zh
Application granted granted Critical
Publication of CN114444123B publication Critical patent/CN114444123B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于语义信息的匿名轨迹隐私保护方法,包括:步骤1,基于空间访问密度将原轨迹数据集中的轨迹进行离散化,生成自适应离散化格网;步骤2,通过滑动窗口算法将离散化格网中的轨迹划分为若干定长的子轨迹;步骤3,分别计算滑动窗口中子轨迹的时空相似度,并分别根据子轨迹的时空相似度进行轨迹聚类,获得轨迹匿名聚类集合;步骤4,将轨迹匿名聚类集合中的同一匿名聚类中的子轨迹进行合并,合并后的子轨迹满足l‑diversity。本发明可使发布的匿名轨迹数据集有效抵御去匿名攻击和语义攻击,保护用户隐私,减少数据损失,保证数据的可用性。

Description

基于语义信息的匿名轨迹隐私保护方法
技术领域
本发明涉及隐私保护和信息安全技术领域,特别涉及一种基于语义信息的匿名轨迹隐私保护方法。
背景技术
随着各类移动设备大量普及,和大数据分析技术的飞速发展,移动设备使用者的轨迹常常被收集后发布,被研究人员和LBS服务提供商用大数据分析技术挖掘出有价值的信息,用于学术研究或商业发展,比如智慧城市、智能路网的建设,和优化LBS服务质量。但数据拥有者对外发布轨迹数据集时,不可避免地会涉及到用户的隐私泄露问题。
为保护用户的轨迹中包含的隐私信息,轨迹数据发布前通常要匿名化处理,但去匿名攻击依然会导致用户隐私泄露。攻击者试图结合其他方法获取的数据或信息等背景信息,从发布的匿名数据集中识别出攻击对象的轨迹。针对去匿名攻击,通常使用k匿名模型,使每个用户的轨迹与其他k-1个用户的轨迹无法区分,从而保护用户隐私。但传统的k匿名算法在形成匿名轨迹聚类、合并轨迹的过程中会造成数据损失,减少数据可用性。同时,传统k匿名隐私保护模型也无法防止用户轨迹中语义信息泄露。攻击者可以先找出轨迹中用户频繁访问的区域,再根据该区域PoI分布特征,推测出用户访问该区域的目的,从而进一步获取用户隐私信息,如工作地点、健康状态、宗教信仰等。
发明内容
本发明提供了一种基于语义信息的匿名轨迹隐私保护方法,其目的是为了解决传统的匿名轨迹隐私保护方法不能够有效抵御匿名攻击和语义攻击,数据损失大,语义数据集可用性低的问题。
为了达到上述目的,本发明的实施例提供了一种基于语义信息的匿名轨迹隐私保护方法,包括:
步骤1,基于空间访问密度将原轨迹数据集中的轨迹进行离散化,生成自适应离散化格网;
步骤2,通过滑动窗口算法将离散化格网中的轨迹划分为若干定长的子轨迹;
步骤3,分别计算滑动窗口中子轨迹的时空相似度,并分别根据子轨迹的时空相似度进行轨迹聚类,获得轨迹匿名聚类集合;
步骤4,将轨迹匿名聚类集合中的同一匿名聚类中的子轨迹进行合并,合并后的子轨迹满足l-diversity,其中,l-diversity表示轨迹中每个时空位置附近的PoI种类;
步骤5,移动所述步骤2中的滑动窗口,重复执行所述步骤3和所述步骤4,直至滑动窗口移动到轨迹数据集所在时间范围的终点,获得满足km匿名和l-diversity的第一匿名轨迹集,其中,km匿名表示对轨迹中任意的长度小于等于m的连续时空位置序列匿名;
步骤6,基于PoI的分布特征处理匿名轨迹集,匿名轨迹集满足t-closeness,其中,t-closeness表示轨迹中每个时空位置附近的PoI分布与数据集所在地理空间的PoI分布差异,获得满足km匿名、l-diversity和t-closeness的第二匿名轨迹数据集。
其中,所述步骤1具体包括:
步骤11,设置自适应离散化格网的格网尺寸参数为N,将地理空间初始化为N*N的格网;
步骤12,依次对自适应离散化格网中的单元格进行标号;
步骤13,根据地理位置坐标与单元格的映射关系,将轨迹编码成单元格序列。
其中,所述步骤1还包括:
步骤14,计算每个单元格的归一化访问次数;
步骤15,依次判断计算出的每个单元格的归一化访问次数是否达到预设的单元格的归一化访问次数阈值,将达到单元格的归一化访问次数阈值的单元格通过二分法进行细化;
步骤16,跳转到步骤12,重复执行步骤12至步骤15直到达到预设的迭代次数。
其中,所述步骤2具体包括:
步骤21,滑动窗口算法中的滑动窗口设定为m,其滑动步长设定为1,从轨迹的起始时空点开始,将轨迹数据集Ddis中的所有轨迹划分成若干个包含m个时空位置的子轨迹。
其中,所述步骤3具体包括:
步骤31,计算子轨迹Traa和子轨迹Trab的时空相似度,如下所示:
Figure BDA0003488410180000031
Figure BDA0003488410180000032
其中,t表示滑动窗口中的第t个时隙,
Figure BDA0003488410180000033
表示子轨迹Traa和子轨迹Trab在第t个时隙位置集La和Lb的时空距离,na表示位置集La中的位置数,nb表示位置集Lb中的位置数,la表示位置集La中的位置,lb表示位置集Lb中的位置,SED(la,lb)表示la和lb的平方欧氏距离;
步骤32,根据步骤31计算滑动窗口中每一对子轨迹的时空相似度;
步骤33,将空匿名聚类集合进行初始化,在每次迭代中,选取未被加入匿名聚类集合且时空相似度最小的两个子轨迹或子轨迹聚类,合并为新的子轨迹聚类。
其中,所述步骤3还包括:
步骤34,判断新的子轨迹聚类中的子轨迹数量是否大于等于设定的隐私水平δk
步骤35,当新的子轨迹聚类中的子轨迹数量大于等于设定的隐私水平δk时,将新的子轨迹聚类加入匿名轨迹聚类集合;当新的子轨迹聚类中的子轨迹数量小于设定的隐私水平δk时,计算新的子轨迹聚类与其他不在匿名聚类中的子轨迹聚类或子轨迹的相似度,并存入矩阵Ω;
步骤36,重复步骤31至步骤35,直到所有子轨迹均加入匿名聚类集合;轨迹聚类结束,获得轨迹匿名聚类集合。
其中,所述步骤4具体包括:
步骤41,初始化长度为m,各时隙位置信息为空的轨迹mTra;
步骤42,从待合并的匿名聚类中逐一取出子轨迹,按时隙的顺序把该子轨迹的时空位置合并入轨迹mTra,在第t个时隙,合并后的位置信息是两条轨迹在这个时隙位置的并集,获得初步合并后的轨迹mTra。
其中,所述步骤4还包括:
步骤43,遍历轨迹mTra的每个时空位置集,判断当前位置集所在区域的PoI种类数目是否小于设定的阈值δl,当当前位置集所在区域的PoI种类数目小于设定的阈值δl时,从与当前位置集相邻的所有单元格中,优先选取当前位置集所在区域内合适的单元格并将所述合适的单元格并入当前位置集,当当前位置集所在区域的PoI种类数目依然小于阈值δl时,重复挑选合适的单元格再合并入当前位置集,直至当前位置集的PoI种类数目大于等于设定的阈值δl时;
步骤44,合并结束后,获得PoI种类满足的轨迹mTra。
其中,所述步骤6具体包括:
步骤61,统计轨迹数据集所在整个地理区域中各类PoI种类的数量,获得整个地理区域的PoI分布向量;
步骤62,遍历第一匿名轨迹集中的所有轨迹,统计每条轨迹的各个时空位置的所在区域中的各类PoI种类的数量,获得每条轨迹的各个时空位置的所在区域的PoI分布向量。
其中,所述步骤6还包括:
步骤63,根据每条轨迹的各个时空位置的所在区域的PoI分布向量,计算该区域与轨迹数据集Ddis所在整个地理区域的PoI分布向量的JS散度;
步骤64,判断所述JS散度是否小于等于设定的阈值δt,当所述JS散度大于设定的阈值δt时,从与该时空位置的所在区域相邻的所有单元格中,优先选取合适的单元格并入该区域,再次判断所述JS散度是否小于等于设定的阈值δt,当所述JS散度大于设定的阈值δt时,重复挑选合适的单元格再并入该区域,直至该区域与整个地理区域的PoI分布向量的JS散度小于等于阈值δt
步骤65,重复执行步骤63至步骤64,直到遍历完匿名轨迹集中的所有轨迹的各个时空位置的所在区域,获得同时满足km匿名、l-diversity和t-closeness的匿名轨迹数据集。
本发明的上述方案有如下的有益效果:
本发明的上述实施例所述的基于语义信息的匿名轨迹隐私保护方法,基于空间访问密度生成自适应离散化格网,保留更多的轨迹时空信息,实现更高效的轨迹离散化;km匿名模型保证了对于任意轨迹中长度为m的子轨迹,至少有其他k-1条轨迹也包含相同的子轨迹;km匿名模型泛化处理的轨迹序列更短,产生的数据损失更少,保证数据的可用性,同时能抵御长度为m的背景知识攻击;获得的匿名轨迹数据集满足l-diversity和t-closeness,能够抵御语义攻击,阻止攻击者推测出用户访问某区域的目的,有效保护轨迹中的语义隐私信息。
附图说明
图1为本发明的流程图;
图2为本发明的轨迹根据地理坐标映射到格网的示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明针对现有的匿名轨迹隐私保护方法不能够有效抵御匿名攻击和语义攻击,数据损失大,语义数据集可用性低的问题,提供了一种基于语义信息的匿名轨迹隐私保护方法。
如图1至图2所示,本发明的实施例提供了一种基于语义信息的匿名轨迹隐私保护方法,包括:步骤1,基于空间访问密度将原轨迹数据集中的轨迹进行离散化,生成自适应离散化格网;步骤2,通过滑动窗口算法将离散化格网中的轨迹划分为若干定长的子轨迹;步骤3,分别计算滑动窗口中子轨迹的时空相似度,并分别根据子轨迹的时空相似度进行轨迹聚类,获得轨迹匿名聚类集合;步骤4,将轨迹匿名聚类集合中的同一匿名聚类中的子轨迹进行合并,合并后的子轨迹满足l-diversity,其中,l-diversity表示轨迹中每个时空位置附近的PoI种类至少有l种;步骤5,移动所述步骤2中的滑动窗口,重复执行所述步骤3和所述步骤4,直至滑动窗口移动到轨迹数据集所在时间范围的终点,获得满足km匿名和l-diversity的第一匿名轨迹集,其中,km匿名表示对轨迹中任意的长度小于等于m的连续时空位置序列匿名,至少有其他k-1条轨迹也包含该序列;步骤6,基于PoI的分布特征处理匿名轨迹集,匿名轨迹集满足t-closeness,其中,t-closeness表示轨迹中每个时空位置附近的PoI分布与数据集所在地理空间的PoI分布差异小于t,获得满足km匿名、l-diversity和t-closeness的第二匿名轨迹数据集。
其中,所述步骤1具体包括:步骤11,设置自适应离散化格网的格网尺寸参数为N,将地理空间初始化为N*N的格网;步骤12,依次对自适应离散化格网中的单元格进行标号;步骤13,根据地理位置坐标与单元格的映射关系,将轨迹编码成单元格序列。
其中,所述步骤1还包括:步骤14,计算每个单元格的归一化访问次数;步骤15,依次判断计算出的每个单元格的归一化访问次数是否达到预设的单元格的归一化访问次数阈值,将达到单元格的归一化访问次数阈值的单元格通过二分法进行细化;步骤16,跳转到步骤12,重复执行步骤12至步骤15直到达到预设的迭代次数。
本发明的上述实施例所述的基于语义信息的匿名轨迹隐私保护方法,根据真实轨迹数据集Dreal,设置格网尺寸参数N,将地理空间初始化为N*N的格网;给格网中的每个单元格依次标号C1,C2,…,Ci,…,其中i∈[1,单元格的总数];根据地理位置坐标与格网中单元格的映射关系,把真实轨迹数据集Dreal中的轨迹编码为单元格序列。例如,图2中轨迹T={l1,l2,l3,l4,l5}会被编码为T={C1,C2,C2,C2,C4};根据公式计算格网中每个单元格的归一化访问次数:
Figure BDA0003488410180000061
其中,g(Ci)是单元格Ci的归一化访问次数,i∈[1,N2],T是轨迹数据集Dreal中的轨迹,|T|是轨迹T包含的单元格数量,即轨迹T的长度,
Figure BDA0003488410180000062
是单元格Ci在轨迹T中出现的次数;
将所有单元格按照归一化访问次数从大到小排序,并把排在前paramp的单元格用二分法细化,在本发明中paramp=25%;返回步骤12,并重复执行步骤12至步骤15直至迭代次数达到paramn,最终得到基于空间访问密度的自适应离散化格网和编码后的轨迹数据集Ddis,paramn=3。
其中,所述步骤2具体包括:步骤21,滑动窗口算法中的滑动窗口设定为m,其滑动步长设定为1,从轨迹的起始时空点开始,将轨迹数据集Ddis中的所有轨迹划分成若干个包含m个时空位置的子轨迹。
其中,所述步骤3具体包括:步骤31,计算子轨迹Traa和子轨迹Trab的时空相似度,如下所示:
Figure BDA0003488410180000071
Figure BDA0003488410180000072
其中,t表示滑动窗口中的第t个时隙,
Figure BDA0003488410180000073
表示子轨迹Traa和子轨迹Trab在第t个时隙位置集La和Lb的时空距离,na表示位置集La中的位置数,nb表示位置集Lb中的位置数,la表示位置集La中的位置,lb表示位置集Lb中的位置,SED(la,lb)表示la和lb的平方欧氏距离;步骤32,根据步骤31计算滑动窗口中每一对子轨迹的时空相似度;步骤33,将空匿名聚类集合进行初始化,在每次迭代中,选取未被加入匿名聚类集合且时空相似度最小的两个子轨迹或子轨迹聚类,合并为新的子轨迹聚类。
其中,所述步骤3还包括:步骤34,判断新的子轨迹聚类中的子轨迹数量是否大于等于设定的隐私水平δk;步骤35,当新的子轨迹聚类中的子轨迹数量大于等于设定的隐私水平δk时,将新的子轨迹聚类加入匿名轨迹聚类集合;当新的子轨迹聚类中的子轨迹数量小于设定的隐私水平δk时,计算新的子轨迹聚类与其他不在匿名聚类中的子轨迹聚类或子轨迹的相似度,并存入矩阵Ω;步骤36,重复步骤31至步骤35,直到所有子轨迹均加入匿名聚类集合;轨迹聚类结束,获得轨迹匿名聚类集合。
其中,所述步骤4具体包括:步骤41,初始化长度为m,各时隙位置信息为空的轨迹mTra;步骤42,从待合并的匿名聚类中逐一取出子轨迹,按时隙的顺序把该子轨迹的时空位置合并入轨迹mTra,在第t个时隙,合并后的位置信息是两条轨迹在这个时隙位置的并集,获得初步合并后的轨迹mTra。
其中,所述步骤4还包括:步骤43,遍历轨迹mTra的每个时空位置集,判断当前位置集所在区域的PoI种类数目是否小于设定的阈值δl,当当前位置集所在区域的PoI种类数目小于设定的阈值δl时,从与当前位置集相邻的所有单元格中,优先选取当前位置集所在区域内合适的单元格并将所述合适的单元格并入当前位置集,当当前位置集所在区域的PoI种类数目依然小于阈值δl时,重复挑选合适的单元格再合并入当前位置集,直至当前位置集的PoI种类数目大于等于设定的阈值δl时;步骤44,合并结束后,获得PoI种类满足的轨迹mTra。
其中,所述步骤6具体包括:步骤61,统计轨迹数据集所在整个地理区域中各类PoI种类的数量,获得整个地理区域的PoI分布向量;步骤62,遍历第一匿名轨迹集中的所有轨迹,统计每条轨迹的各个时空位置的所在区域中的各类PoI种类的数量,获得每条轨迹的各个时空位置的所在区域的PoI分布向量。
其中,所述步骤6还包括:步骤63,根据每条轨迹的各个时空位置的所在区域的PoI分布向量,计算该区域与轨迹数据集Ddis所在整个地理区域的PoI分布向量的JS散度;步骤64,判断所述JS散度是否小于等于设定的阈值δt,当所述JS散度大于设定的阈值δt时,从与该时空位置的所在区域相邻的所有单元格中,优先选取合适的单元格并入该区域,再次判断所述JS散度是否小于等于设定的阈值δt,当所述JS散度大于设定的阈值δt时,重复挑选合适的单元格再并入该区域,直至该区域与整个地理区域的PoI分布向量的JS散度小于等于阈值δt;步骤65,重复执行步骤63至步骤64,直到遍历完匿名轨迹集中的所有轨迹的各个时空位置的所在区域,获得同时满足km匿名、l-diversity和t-closeness的匿名轨迹数据集。
本发明的上述实施例所述的基于语义信息的匿名轨迹隐私保护方法,假设待计算相似度的子轨迹分别是子轨迹Traa和子轨迹Trab。首先计算第t个时隙中,子轨迹Traa和子轨迹Trab在这个时隙位置集La和Lb的时空距离
Figure BDA0003488410180000081
计算公式如下:
Figure BDA0003488410180000091
其中,na表示位置集La中的位置数,nb表示位置集Lb中的位置数,la表示位置集La中的位置,lb表示位置集Lb中的位置,SED(la,lb)表示la和lb的平方欧氏距离;
再计算子轨迹Traa和子轨迹Trab的时空相似度Da,b,计算公式如下:
Figure BDA0003488410180000092
计算滑动窗口每一对子轨迹的时空相似度,并把结果存入矩阵Ω中;
首先初始化空匿名聚类集合,然后在每次迭代中,选取未被加入匿名聚类集合且时空相似度最小的两个子轨迹或子轨迹聚类,合并为新的子轨迹聚类。判断合并后聚类中的子轨迹数量是否大于等于设定的隐私水平。若符合,则把该子轨迹聚类加入匿名轨迹聚类集合;若不符合,计算该子轨迹聚类与其他不在匿名聚类中的子轨迹聚类或子轨迹的相似度,存入矩阵Ω。重复以上轨迹聚类过程,直至所有子轨迹都被加入匿名聚类集合;轨迹聚类结束后,获得轨迹k匿名聚类集合;
合并同一匿名聚类中的子轨迹,并使得合并后的轨迹满足l-diversity;
具体地,合并同一匿名聚类中的轨迹,并使合并后的轨迹满足l-diversity包括以下子步骤:
初始化长度为m,各时隙位置信息为空的轨迹mTra;
从待合并的匿名聚类中逐一取出子轨迹,按时隙的顺序把该子轨迹的时空位置一一合并入轨迹mTra。在第t个时隙,合并后的位置信息是两条轨迹在这个时隙位置的并集。获得初步合并后的轨迹mTra;
遍历轨迹mTra的每个时空位置集,判断该位置集所在区域的PoI种类数目是否大于等于设定的阈值δl。若不符合,就从与该位置集相邻的所有单元格中,优先选取并入原位置集后,能使位置集所在区域的PoI种类数目增加得最多的单元格,将其合并入该位置集。若位置集所在区域的PoI种类数目依然小于阈值δl,重复挑选合适的单元格再合并入位置集,直至该位置集的PoI种类数目大于等于设定的阈值δl
合并结束后,获得PoI种类满足l-diversity的轨迹mTra,作为该子轨迹匿名聚类的合并结果,用来代表该子轨迹匿名聚类中的子轨迹;
向前移动滑动窗口,重复执行步骤3至步骤4,直至滑动窗口移动到终点,最终获得满足km匿名和l-diversity的第一匿名轨迹集D'anony
基于PoI的分布特征处理第一匿名轨迹集D'anony,使其中的轨迹满足t-closeness;
处理第一匿名轨迹集D'anony,使第一匿名轨迹集D'anony中的轨迹满足t-closeness包括以下子步骤:
统计轨迹数据集所在整个地理区域R中各类PoI的数量,获得区域R的PoI分布向量VR=[N1,N2,…,Nh,…,Nc],其中,c是整个地理区域R中PoI的种类总数,Nh是区域R中第h类PoI的数量;
遍历第一匿名轨迹集D'anony中所有轨迹,统计每条轨迹各时空位置所在地理区域中各类PoI的数量,获得该区域的PoI分布向量。例如某时空位置所在地理区域r,该区域的PoI分布向量为
Figure BDA0003488410180000101
Figure BDA0003488410180000102
是区域r中第h类PoI的数量;
根据各时空位置所在区域的PoI分布向量,计算该区域与轨迹数据集所在整个地理区域R的PoI分布向量的JS散度。例如,某时空位置所在地理区域r的PoI分布向量是
Figure BDA0003488410180000103
则Vr与VR的JS散度计算方法为:
Figure BDA0003488410180000104
其中,Vr是地理区域r的PoI分布向量,VR是地理区域R的PoI分布向量,JSD(Vr||VR)是Vr与VR的JS散度,KLD是KL散度,
Figure BDA0003488410180000105
Figure BDA0003488410180000106
的计算方法如下:
Figure BDA0003488410180000107
Figure BDA0003488410180000108
Figure BDA0003488410180000111
Figure BDA0003488410180000112
其中,Vr是地理区域r的PoI分布向量,VR是地理区域R的PoI分布向量,c是整个地理区域R中PoI的种类总数,
Figure BDA0003488410180000113
是区域r中第j类PoI的出现的概率,
Figure BDA0003488410180000114
是区域r中第j类PoI的数量,
Figure BDA0003488410180000115
是区域r中第h类PoI的数量,
Figure BDA0003488410180000116
是区域R中第j类PoI的出现的概率,
Figure BDA0003488410180000117
是区域R中第j类PoI的数量,
Figure BDA0003488410180000118
是区域R中第h类PoI的数量。
判断区域r与整个地理区域R的PoI分布向量的JS散度是否小于等于设置好的阈值δt。若不符合,就从与区域r相邻的所有单元格中,优先选取并入区域r后,能使JS散度减少得最多的单元格,将其合并入区域r。若JS散度仍大于阈值δt,重复挑选合适的单元格再合并入区域r,直至区域r与整个地理区域R的PoI分布向量的JS散度小于等于阈值δt
按照步骤63至步骤64处理完所有轨迹中各时空位置所在区域后,获得同时满足km匿名、l-diversity和t-closeness的第二匿名轨迹数据集Danony,可用于发布。
本发明的上述实施例所述的基于语义信息的匿名轨迹隐私保护方法,基于空间访问密度生成自适应离散化格网,保留更多的轨迹时空信息,实现更高效的轨迹离散化;km匿名模型保证了对于任意轨迹中长度为m的子轨迹,至少有其他k-1条轨迹也包含相同的子轨迹;km匿名模型泛化处理的轨迹序列更短,产生的数据损失更少,保证数据的可用性,同时能抵御长度为m的背景知识攻击;获得的匿名轨迹数据集满足l-diversity和t-closeness,能够抵御语义攻击,阻止攻击者推测出用户访问某区域的目的,有效保护轨迹中的语义隐私信息。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种基于语义信息的匿名轨迹隐私保护方法,其特征在于,包括:
步骤1,基于空间访问密度将原轨迹数据集中的轨迹进行离散化,生成自适应离散化格网;
步骤2,通过滑动窗口算法将离散化格网中的轨迹划分为若干定长的子轨迹;
步骤3,分别计算滑动窗口中子轨迹的时空相似度,并分别根据子轨迹的时空相似度进行轨迹聚类,获得轨迹匿名聚类集合;
步骤4,将轨迹匿名聚类集合中的同一匿名聚类中的子轨迹进行合并,合并后的子轨迹满足l-diversity,其中,l-diversity表示轨迹中每个时空位置附近的PoI种类;
步骤5,移动所述步骤2中的滑动窗口,重复执行所述步骤3和所述步骤4,直至滑动窗口移动到轨迹数据集所在时间范围的终点,获得满足km匿名和l-diversity的第一匿名轨迹集,其中,km匿名表示对轨迹中任意的长度小于等于m的连续时空位置序列匿名;
步骤6,基于PoI的分布特征处理匿名轨迹集,匿名轨迹集满足t-closeness,其中,t-closeness表示轨迹中每个时空位置附近的PoI分布与数据集所在地理空间的PoI分布差异,获得满足km匿名、l-diversity和t-closeness的第二匿名轨迹数据集。
2.根据权利要求1所述的基于语义信息的匿名轨迹隐私保护方法,其特征在于,所述步骤1具体包括:
步骤11,设置自适应离散化格网的格网尺寸参数为N,将地理空间初始化为N*N的格网;
步骤12,依次对自适应离散化格网中的单元格进行标号;
步骤13,根据地理位置坐标与单元格的映射关系,将轨迹编码成单元格序列。
3.根据权利要求4所述的基于语义信息的匿名轨迹隐私保护方法,其特征在于,所述步骤1还包括:
步骤14,计算每个单元格的归一化访问次数;
步骤15,依次判断计算出的每个单元格的归一化访问次数是否达到预设的单元格的归一化访问次数阈值,将达到单元格的归一化访问次数阈值的单元格通过二分法进行细化;
步骤16,跳转到步骤12,重复执行步骤12至步骤15直到达到预设的迭代次数。
4.根据权利要求3所述的基于语义信息的匿名轨迹隐私保护方法,其特征在于,所述步骤2具体包括:
步骤21,滑动窗口算法中的滑动窗口设定为m,其滑动步长设定为1,从轨迹的起始时空点开始,将轨迹数据集Ddis中的所有轨迹划分成若干个包含m个时空位置的子轨迹。
5.根据权利要求4所述的基于语义信息的匿名轨迹隐私保护方法,其特征在于,所述步骤3具体包括:
步骤31,计算子轨迹Traa和子轨迹Trab的时空相似度,如下所示:
Figure FDA0003488410170000021
Figure FDA0003488410170000022
其中,t表示滑动窗口中的第t个时隙,
Figure FDA0003488410170000023
表示子轨迹Traa和子轨迹Trab在第t个时隙位置集La和Lb的时空距离,na表示位置集La中的位置数,nb表示位置集Lb中的位置数,la表示位置集La中的位置,lb表示位置集Lb中的位置,SED(la,lb)表示la和lb的平方欧氏距离;
步骤32,根据步骤31计算滑动窗口中每一对子轨迹的时空相似度;
步骤33,将空匿名聚类集合进行初始化,在每次迭代中,选取未被加入匿名聚类集合且时空相似度最小的两个子轨迹或子轨迹聚类,合并为新的子轨迹聚类。
6.根据权利要求5所述的基于语义信息的匿名轨迹隐私保护方法,其特征在于,所述步骤3还包括:
步骤34,判断新的子轨迹聚类中的子轨迹数量是否大于等于设定的隐私水平δk
步骤35,当新的子轨迹聚类中的子轨迹数量大于等于设定的隐私水平δk时,将新的子轨迹聚类加入匿名轨迹聚类集合;当新的子轨迹聚类中的子轨迹数量小于设定的隐私水平δk时,计算新的子轨迹聚类与其他不在匿名聚类中的子轨迹聚类或子轨迹的相似度,并存入矩阵Ω;
步骤36,重复步骤31至步骤35,直到所有子轨迹均加入匿名聚类集合;轨迹聚类结束,获得轨迹匿名聚类集合。
7.根据权利要求6所述的基于语义信息的匿名轨迹隐私保护方法,其特征在于,所述步骤4具体包括:
步骤41,初始化长度为m,各时隙位置信息为空的轨迹mTra;
步骤42,从待合并的匿名聚类中逐一取出子轨迹,按时隙的顺序把该子轨迹的时空位置合并入轨迹mTra,在第t个时隙,合并后的位置信息是两条轨迹在这个时隙位置的并集,获得初步合并后的轨迹mTra。
8.根据权利要求7所述的基于语义信息的匿名轨迹隐私保护方法,其特征在于,所述步骤4还包括:
步骤43,遍历轨迹mTra的每个时空位置集,判断当前位置集所在区域的PoI种类数目是否小于设定的阈值δl,当当前位置集所在区域的PoI种类数目小于设定的阈值δl时,从与当前位置集相邻的所有单元格中,优先选取当前位置集所在区域内合适的单元格并将所述合适的单元格并入当前位置集,当当前位置集所在区域的PoI种类数目依然小于阈值δl时,重复挑选合适的单元格再合并入当前位置集,直至当前位置集的PoI种类数目大于等于设定的阈值δl时;
步骤44,合并结束后,获得PoI种类满足的轨迹mTra。
9.根据权利要求8所述的基于语义信息的匿名轨迹隐私保护方法,其特征在于,所述步骤6具体包括:
步骤61,统计轨迹数据集所在整个地理区域中各类PoI种类的数量,获得整个地理区域的PoI分布向量;
步骤62,遍历第一匿名轨迹集中的所有轨迹,统计每条轨迹的各个时空位置的所在区域中的各类PoI种类的数量,获得每条轨迹的各个时空位置的所在区域的PoI分布向量。
10.根据权利要求9所述的基于语义信息的匿名轨迹隐私保护方法,其特征在于,所述步骤6还包括:
步骤63,根据每条轨迹的各个时空位置的所在区域的PoI分布向量,计算该区域与轨迹数据集Ddis所在整个地理区域的PoI分布向量的JS散度;
步骤64,判断所述JS散度是否小于等于设定的阈值δt,当所述JS散度大于设定的阈值δt时,从与该时空位置的所在区域相邻的所有单元格中,优先选取合适的单元格并入该区域,再次判断所述JS散度是否小于等于设定的阈值δt,当所述JS散度大于设定的阈值δt时,重复挑选合适的单元格再并入该区域,直至该区域与整个地理区域的PoI分布向量的JS散度小于等于阈值δt
步骤65,重复执行步骤63至步骤64,直到遍历完匿名轨迹集中的所有轨迹的各个时空位置的所在区域,获得同时满足km匿名、l-diversity和t-closeness的匿名轨迹数据集。
CN202210087301.7A 2022-01-25 2022-01-25 基于语义信息的匿名轨迹隐私保护方法 Active CN114444123B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210087301.7A CN114444123B (zh) 2022-01-25 2022-01-25 基于语义信息的匿名轨迹隐私保护方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210087301.7A CN114444123B (zh) 2022-01-25 2022-01-25 基于语义信息的匿名轨迹隐私保护方法

Publications (2)

Publication Number Publication Date
CN114444123A true CN114444123A (zh) 2022-05-06
CN114444123B CN114444123B (zh) 2024-04-19

Family

ID=81370492

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210087301.7A Active CN114444123B (zh) 2022-01-25 2022-01-25 基于语义信息的匿名轨迹隐私保护方法

Country Status (1)

Country Link
CN (1) CN114444123B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106777982A (zh) * 2016-12-17 2017-05-31 浙江工业大学 一种基于空间路径相似性的脑纤维聚类方法
CN113946867A (zh) * 2021-10-21 2022-01-18 福建工程学院 基于空间影响力的位置隐私保护方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106777982A (zh) * 2016-12-17 2017-05-31 浙江工业大学 一种基于空间路径相似性的脑纤维聚类方法
CN113946867A (zh) * 2021-10-21 2022-01-18 福建工程学院 基于空间影响力的位置隐私保护方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郭旭东;吴英杰;杨文进;王晓东;: "隐私保护轨迹数据发布的l-差异性算法", 计算机工程与应用, no. 02, 15 January 2015 (2015-01-15) *

Also Published As

Publication number Publication date
CN114444123B (zh) 2024-04-19

Similar Documents

Publication Publication Date Title
CN110334293B (zh) 面向位置社交网络的基于模糊聚类的具有时间感知的位置推荐方法
CN114048331A (zh) 一种基于改进型kgat模型的知识图谱推荐方法及系统
CN109886334B (zh) 一种隐私保护的共享近邻密度峰聚类方法
Jiao et al. A novel next new point-of-interest recommendation system based on simulated user travel decision-making process
CN113190670A (zh) 一种基于大数据平台的信息展示方法及系统
Bandyopadhyay Genetic algorithms for clustering and fuzzy clustering
Tsai et al. A fast particle swarm optimization for clustering
Singh et al. Probabilistic data structure-based community detection and storage scheme in online social networks
CN116301048A (zh) 无人机路径规划方法、系统、电子设备以及存储介质
Murakami Expectation-maximization tensor factorization for practical location privacy attacks
CN112182645A (zh) 一种针对目的地预测的可量化隐私保护方法、设备及介质
Yu et al. Trajectory dimensionality reduction and hyperparameter settings of DBSCAN for trajectory clustering
Ding et al. A restrictive polymorphic ant colony algorithm for the optimal band selection of hyperspectral remote sensing images
CN113946867B (zh) 基于空间影响力的位置隐私保护方法
Li et al. Feature selection and model fusion approach for predicting urban macro travel time
CN110598122B (zh) 社交群体挖掘方法、装置、设备及存储介质
Ning‐bo et al. Destination and route choice models for bidirectional pedestrian flow based on the social force model
Gu A novel locality sensitive k-means clustering algorithm based on subtractive clustering
CN115563522B (zh) 交通数据的聚类方法、装置、设备及介质
Peters et al. Dynamic clustering with soft computing
CN114444123A (zh) 基于语义信息的匿名轨迹隐私保护方法
Etemad Transportation modes classification using feature engineering
Li et al. A Differentially private hybrid decomposition algorithm based on quad-tree
Mostafiz et al. Class-based conditional MaxRs query in spatial data streams
Elbatta et al. A vibration method for discovering density varied clusters

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant