CN112861173A

CN112861173A - 一种车联网位置隐私保护方法及系统

Info

Publication number: CN112861173A
Application number: CN202110110926.6A
Authority: CN
Inventors: 谢鹏寿; 王鑫; 康永平; 王一凡; 潘孝杰; 杨昊煊; 王靓轩; 冯涛; 晏燕
Original assignee: Lanzhou University of Technology
Current assignee: Lanzhou University of Technology
Priority date: 2021-01-26
Filing date: 2021-01-26
Publication date: 2021-05-28

Abstract

本发明涉及一种车联网位置隐私保护方法及系统。该方法包括：利用序列位置点背景知识对车联网当前位置点进行预测并对位置点进行划分；通过每个区域的结构系数向量使用PageRank算法计算车联网用户位置的敏感属性值；对用户位置敏感属性值进行隐私预算分配；通过拉普拉斯机制基于每个区域的隐私预算添加不同程度的噪声，以实现保护整条位置隐私信息的目的；最后，在真实数据集上进行了实验验证。本发明可以在提高车联网位置隐私保护安全性的同时，提高位置数据的可用性。

Description

一种车联网位置隐私保护方法及系统

技术领域

本发明涉及车联网(Internet of Vehicles，IoV)安全领域，特别是涉及一种车联网位置隐私保护方法及系统。

背景技术

车联网是一种依据特定通信协议，实现车-X(X：车、路、行人及互联网等)之间的无线通信和信息交换的大型网络，也是一种能够实现智能交通与动态信息服务的一体化网络。面向车联网的早期服务主要以安全驾驶与智能交通为主。随着车联网和云计算的发展，越来越多的车联网安全问题浮现出来。车联网日益增加的基于位置的服务(LocationBased Services，LBS)应用在方便用户生活的同时也使得服务提供商收集了大量车辆用户的轨迹数据。这些轨迹数据可能使用户的兴趣爱好、社会关系、身体状况等隐私信息暴露给攻击者，从而给用户的生活带来严重的威胁。例如，通过对某条轨迹的分析，攻击者依据其掌握的背景知识有可能分析出车联网用户的家庭住址、工作地点，甚至分析出用户的行为模式等私密信息。因此，位置隐私保护已经成为车联网用户和研究者们共同关注的问题，现有的车联网位置隐私保护算法仍然面临执行效率较低、安全性不高和数据可用性较差等问题。

发明内容

本发明的目的是提供一种车联网位置隐私保护方法及系统，以解决现有的车联网位置隐私保护算法执行效率较低、安全性不高和数据可用性较差等问题。

为实现上述目的，本发明提供了如下方案：

一种车联网位置隐私保护方法，包括：

利用序列位置点背景知识对车联网内所有用户位置点进行预测，生成位置点有向图；

基于所述位置点有向图，利用PageRank算法计算每个所述用户位置点的敏感属性值；

根据所述敏感属性值对所有所述用户位置点进行划分，确定多个区域；

获取每个所述区域内的车辆流入流出情况，并根据所述车辆流入流出情况计算每个所述区域的结构系数；所述结构系数为区域对用户位置点重要性的影响；

根据所述敏感属性值以及所述结构系数计算每个所述用户位置点的敏感度；

对所述敏感度进行差分隐私预算分配，确定每个所述区域的差分隐私预算；

基于每个所述区域的差分隐私预算，利用拉普拉斯机制对所述用户位置点添加拉普拉斯噪声，并利用添加拉普拉斯噪声后的用户位置点替代原始的用户位置点。

可选的，所述基于所述位置点有向图，利用PageRank算法计算每个所述用户位置点的敏感属性值，具体包括：

基于所述位置点有向图，利用公式

计算每个所述用户位置点的敏感属性值；其中，PR(L_i)为第i用户位置点L_i的敏感属性值；N为所有用户位置点数量；M(L_i)为L_i有出链的位置集合；PR(L_j)为第j用户位置点L_j的敏感属性值；Out(L_j)为L_j的出链数目，d为瞄准隐私保护车辆节点位置的概率，1-d为随机跳转到其他位置的概率。

可选的，所述根据所述敏感属性值对所有所述用户位置点进行划分，确定多个区域，具体包括：

将相似度小于相似度阈值的敏感属性值对应的用户位置点进行合并，确定多个区域；每个所述区域具有多个用户位置点，每个所述区域内的用户位置点的敏感属性值的相似度小于相似度阈值。

可选的，所述获取每个所述区域内的车辆流入流出情况，并根据所述车辆流入流出情况计算每个所述区域的结构系数，具体包括：

所述结构系数为：

其中，

为任一所述区域的内部度之和；

为任一所述区域的外部度之和；A_nn为邻接矩阵内区域n和区域n的连边总数，n为区域序号。

可选的，所述根据所述敏感属性值以及所述结构系数计算每个所述用户位置点的敏感度，具体包括：

根据所述结构系数，利用公式

确定结构系数向量；其中，I⁽ⁿ⁾为结构系数向量；

根据所述敏感度属性值以及所述结构系数向量，利用公式

计算每个所述用户位置点的敏感度；其中，P_x为每个所述用户位置点的敏感度，x为用户位置点。

可选的，所述基于每个所述区域的差分隐私预算，利用拉普拉斯机制对所述用户位置点添加拉普拉斯噪声，并利用添加拉普拉斯噪声后的用户位置点替代原始的用户位置点，具体包括：

获取每个所述区域的差分隐私预算，利用拉普拉斯机制对所述用户位置点添加半径为r，夹角为θ的拉普拉斯噪声，生成添加拉普拉斯噪声后的用户位置点；所述半径为r，夹角为θ的拉普拉斯噪声满足公式

其中，

为概率分布函数；ε为差分隐私预算；x₀为用户实际位置点；π为180°。

一种车联网位置隐私保护系统，包括：

位置点有向图生成模块，用于利用序列位置点背景知识对车联网内所有用户位置点进行预测，生成位置点有向图；

敏感属性值计算模块，用于基于所述位置点有向图，利用PageRank算法计算每个所述用户位置点的敏感属性值；

区域划分模块，用于根据所述敏感属性值对所有所述用户位置点进行划分，确定多个区域；

结构系数计算模块，用于获取每个所述区域内的车辆流入流出情况，并根据所述车辆流入流出情况计算每个所述区域的结构系数；所述结构系数为区域对用户位置点重要性的影响；

敏感度计算模块，用于根据所述敏感属性值以及所述结构系数计算每个所述用户位置点的敏感度；

差分隐私预算确定模块，用于对所述敏感度进行差分隐私预算分配，确定每个所述区域的差分隐私预算；

拉普拉斯噪声添加模块，用于基于每个所述区域的差分隐私预算，利用拉普拉斯机制对所述用户位置点添加拉普拉斯噪声，并利用添加拉普拉斯噪声后的用户位置点替代原始的用户位置点。

可选的，所述敏感属性值计算模块，具体包括：

敏感属性值计算单元，用于基于所述位置点有向图，利用公式

可选的，所述区域划分模块，具体包括：

区域划分单元，用于将相似度小于相似度阈值的敏感属性值对应的用户位置点进行合并，确定多个区域；每个所述区域具有多个用户位置点，每个所述区域内的用户位置点的敏感属性值的相似度小于相似度阈值。

可选的，所述结构系数计算模块中的结构系数为：

其中，

为任一所述区域的内部度之和；

根据本发明提供的具体实施例，本发明公开了以下技术效果：本发明提供了一种车联网位置隐私保护方法及系统，采用PageRank算法来计算轨迹上位置点的敏感属性值，再基于敏感属性值进行隐私预算分配，解决了传统位置隐私保护方法的隐私保护效率低的问题。本发明通过对用户轨迹上的用户位置点添加噪声代替原始的用户位置点，从而保护了整条用户轨迹，并基于敏感程度的差异性，分配不同的隐私预算值、添加不同强度的噪声，在保护隐私信息不被泄露的同时，提高数据利用率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明所提供的车联网位置隐私保护方法流程图；

图2为本发明的相邻区域车辆流入与流出图；

图3为本发明所提供的车联网位置隐私保护系统结构图；

图4为本发明的算法执行效率分析示意图；

图5为本发明的ε变化时MAE的变化示意图；

图6为本发明的三种算法隐私保护效果分析示意图；

图7为本发明的不同ε下r的概率分布对比示意图；

图8为本发明的不同ε下的累计概率分布C_ε(r)对比示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提供一种车联网位置隐私保护方法及系统，提高了隐私保护效率，以及在保护隐私信息不被泄露的同时，提高了数据利用率。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明所提供的车联网位置隐私保护方法流程图，如图1所示，一种车联网位置隐私保护方法，包括：

步骤101：利用序列位置点背景知识对车联网内所有用户位置点进行预测，生成位置点有向图；所述序列位置点背景知识为攻击者利用大数据、社会网络等新兴技术持续地收集用户的历史信息，并能从更多渠道获取用户的位置或与位置相关的非位置等各种类型的数据。

步骤102：基于所述位置点有向图，利用PageRank算法计算每个所述用户位置点的敏感属性值。

PageRank是一种评估某一页面质量的算法，可以认为其是一种概率表示。在路网环境中可以使用它对位置点的重要性进行排序，基于PageRank算法计算出位置点的敏感属性值(PR值)，并根据PR值进行排序。所述位置点的PR值基于PageRank算法基于位置点有向图计算得出；所述位置点有向图是基于序列位置点背景知识推断出用户可能到达的位置点构成。

因此，如果一个位置与它相邻的位置敏感属性值高，则这个位置越敏感，所述步骤102具体包括：基于所述位置点有向图，利用公式

步骤103：根据所述敏感属性值对所有所述用户位置点进行划分，确定多个区域。

基于每个位置点的PR值，将具有PR值相近的单元格进行合并。基于序列位置点背景知识将车联网用户活动区域的路网划分为网格。基于序列位置点背景知识，可以推断出用户可能到达的位置点，然后将这些位置点构成一个有向图；其中，图2(a)为相邻区域车辆流入与流出图，将图2(a)简化为图2(b)，然后计算每个位置点的敏感度，将具有相似敏感度相近的单元格进行合并。

所述步骤103具体包括：将相似度小于相似度阈值的敏感属性值对应的用户位置点进行合并，确定多个区域；每个所述区域具有多个用户位置点，每个所述区域内的用户位置点的敏感属性值的相似度小于相似度阈值。

步骤104：获取每个所述区域内的车辆流入流出情况，并根据所述车辆流入流出情况计算每个所述区域的结构系数；所述结构系数为区域对用户位置点重要性的影响。在具体的实际应用中，所述结构系数是基于一个区域内的位置连边结构特征和另一个区域的的连边数量来衡量区域对位置点重要性的影响。

定义邻接矩阵A。

其中，A_ij表示超级位置点连边的权重，即A_ij为连接区域i到区域j所有的位置点对的边权重之和，所以A_ij是两个区域的连边总数；T_ij为区域i与区域j的连边总数；当i＝j时为同一个区域；A_nn为邻接矩阵内区域n和区域n的连边总数，n为区域序号。

基于一个区域内的位置连边结构特征和另一个区域的的连边数量来衡量区域对位置点重要性的影响。如果位置点内部连边数量较多，则用户倾向于在区域内部移动，若与其他区域的连边数量较多，则用户倾向于向其他区域移动，因此本发明将区域内部与区域间的连接情况看作是区域结构系数，具体参见如下公式：

其中，

为区域C_n内部度之和，

为区域C_n外部度之和，对上述公式化简，则对于超节点聚合邻接矩阵A化简后的公式为：

步骤105：根据所述敏感属性值以及所述结构系数计算每个所述用户位置点的敏感度。

将基于PageRank算法计算的值进行归一化处理再与所述的区域结构系数向量进行计算得到位置点的敏感度。

实际上是对邻接矩阵每一行分别求和再减去内部度所得到的数值，其所代表的含义为所有连接区域C_n的外部总边数。分别计算区域C_n的内部度和外部度，计算区域结构系数向量I＝(⁽¹⁾，I⁽²⁾，…，I⁽ⁿ⁾)^T，其中每一分量I⁽ⁿ⁾为各个区域C_n的区域结构系数；T为转置矩阵。

由于向量I是由一个区域的内外连边数量计算得到，所以I可以表示一个区域内部连接和外部连接的紧密程度，衡量消息在区域内外的流转情况，从而衡量某一区域的连通情况。区域的内外连接情况都会影响一个区域的传播能力。因此用这样的区域结构系数便可以衡量一个区域在地图中的地位。

将每个位置点的PageRank值进行归一化，计算位置点的敏感度：

其中，P_x表示为位置点的敏感度。

步骤106：对所述敏感度进行差分隐私预算分配，确定每个所述区域的差分隐私预算。

差分隐私预算ε，表示隐私保护的强度。ε的值越小，添加的噪声越多，隐私保护程度越高，而数据利用率越低。基于位置点的敏感度，结合总隐私预算，得到每个位置点的差分隐私预算。

当ε接近0时，则查询函数在两个数据集上输出的结果基本相同，此时不会泄露数据集的任何位置信息。隐私预算ε是基于差分隐私模型拟定的一个用来表示隐私保护级别或程度的一个数据量。每一位置点的ε设置不同，敏感度越大的区域ε设置越小。

计算差分隐私预算参数ε_i。

其中，ε为总隐私预算；ε_i为区域i的隐私预算。

步骤107：基于每个所述区域的差分隐私预算，利用拉普拉斯机制对所述用户位置点添加拉普拉斯噪声，并利用添加拉普拉斯噪声后的用户位置点替代原始的用户位置点。

基于隐私保护预算ε以及用户实际位置点x₀，计算得出位置差分隐私需添加的噪声的概率函数，得出添加噪声后的位置x满足ε-位置差分隐私保护；把概率分布函数转化为极坐标函数，再向极坐标函数中添加随机噪声，来达到位置差分隐私保护的目的。

为满足位置差分隐私需添加的噪声的概率函数，给定隐私保护预算ε，实际位置x₀，如果添加噪声后的位置x满足概率分布函数分布，则满足ε-位置差分隐私保护。

所述概率分布函数为

从概率分布函数可知，d(x₀，x)＞0时，x的概率随着x到x₀的距离增大而减小，而且概率分布只与x到x₀的距离有关，为了简化实现，把该函数转化为极坐标函数如下式所示：

其中，

是x在极坐标下的分布函数，r表示x到x₀的距离，θ为x在极坐标下与极轴的夹角，为了方便求解，把

分解到半径r和角度θ上得到：

根据分解后的公式可以向x₀＝(s，t)中添加半径为r、夹角为θ的随机噪声生成x′₀＝(s+r cosθ，t+r sinθ)，来达到位置差分隐私保护的目的。

对

在[0，+∞)积分可以得到距离r的累计概率分布C_ε(r)，从而得出

Z为服从[0，1]均匀分布的随机数。

其中，θ为[0，2π)之间的随机数。

图3为本发明所提供的车联网位置隐私保护系统结构图，如图3所示，一种车联网位置隐私保护系统，包括：

位置点有向图生成模块301，用于利用序列位置点背景知识对车联网内所有用户位置点进行预测，生成位置点有向图；所述序列位置点背景知识为攻击者利用大数据、社会网络等新兴技术持续地收集用户的历史信息，并能从更多渠道获取用户的位置或与位置相关的非位置等各种类型的数据。

敏感属性值计算模块302，用于基于所述位置点有向图，利用PageRank算法计算每个所述用户位置点的敏感属性值。

所述敏感属性值计算模块302具体包括：

区域划分模块303，用于根据所述敏感属性值对所有所述用户位置点进行划分，确定多个区域。

所述区域划分模块303具体包括：

结构系数计算模块304，用于获取每个所述区域内的车辆流入流出情况，并根据所述车辆流入流出情况计算每个所述区域的结构系数；所述结构系数为区域对用户位置点重要性的影响。

所述结构系数计算模块304中的结构系数为：

其中，

为任一所述区域的内部度之和；

敏感度计算模块305，用于根据所述敏感属性值以及所述结构系数计算每个所述用户位置点的敏感度。

差分隐私预算确定模块306，用于对所述敏感度进行差分隐私预算分配，确定每个所述区域的差分隐私预算。

所述差分隐私预算确定模块306，具体包括：位置敏感度确定单元，用于利用上述敏感属性值计算模块302和结构系数计算模块304来计算位置敏感度；差分隐私预算分配单元，用于基于总隐私预算和位置敏感度为每个位置分配不同的差分隐私预算参数，可以更好的保护用户位置隐私，可以更好的保护用户位置隐私。

拉普拉斯噪声添加模块307，用于基于每个所述区域的差分隐私预算，利用拉普拉斯机制对所述用户位置点添加拉普拉斯噪声，并利用添加拉普拉斯噪声后的用户位置点替代原始的用户位置点。

所述拉普拉斯噪声添加模块307具体包括：拉普拉斯噪声生成单元，用于基于给定隐私保护预算和实际位置生成噪声；随机噪声生成单元，用于基于拉普拉斯噪声生成随机噪声，用加躁后的位置点代替原来位置点，完成车联网位置隐私保护，完成车联网位置隐私保护。

本发明性能的优越性可通过以下仿真实验进一步说明：

为了验证本发明所提出方法的位置隐私安全性和位置数据可用性，实验设计分为横向和纵向两个层面，在横向方面，将本发明提出方法和其他方法进行比较，设定同样的环境和相同的参数，比较3种方法在执行效率、数据可用性和安全性方面的性能和表现，验证其优劣。在纵向方面，设定不同的参数，对本发明所提出方法进行验证，测试本发明提出方法在不同参数、不同环境下的性能表现，寻找最佳性能。

本实验所有的数据集来自微软亚洲研究院。所用数据集包含了17621条路径，总行程达到了1293951千米，时间50176小时，每1-1.5秒或者每5-10米一个采样，算法实现采用python编程。

在本发明中，执行效率主要指进行隐私保护处理所需要的时间。我们将PR-Diff算法与CLM算法和DPLRM算法进行了对比。

图4表明，当数据集不断增加时，三种算法在数据集上的运行时间也相应增加.这是因为K很大时，算法所遍历的地理空间增加，进而所需时间也增加。PR-Diff算法和DPLRM算法的执行时间远大于CLM算法。这是因为该方法基于轨迹上位置点敏感程度不同，来添加不同程度的噪声参数，进行不同强度的干扰，提供了较高的数据可用性，因此算法的执行时间较长。而PR-Diff算法采用PageRank算法来计算位置的隐私预算参数，DPLRM方法不仅考虑了当前发布位置对当前时刻的隐私影响，还考虑了当前发布位置对之前发布位置的隐私影响，算法的限制因素较多，所以PR-Diff算法的运行时间比DPLRM方法的运行时间要短。

在本发明中，数据可用性可以用平均绝对误差(MAE)来衡量，MAE越小代表数据可用性越高。评估PR-Diff算法、CLM算法和算法和DPLRM算法中的MAE，如图5所示。

实验结果表明，PR-Diff算法在数据可用性的表现上优于其他两种算法。这是因为CLM方法为轨迹上所有的位置点添加相同强度的噪声信息，对整条轨迹进行相同程度的干扰，产生的信息损失较大。DPLRM方法虽然也是添加不同的噪声，但它不仅考虑了当前发布位置对当前时刻的隐私影响，还考虑了当前发布位置对之前发布位置的隐私影响。算法的限制因素较多，而PR-Diff算法采用PageRank算法分配隐私预算，在设定相同的隐私保护强度ε下，需要更小的噪声就可以达到相同的隐私保护强度。因此，PR-Diff具有更高的数据可用性。

在本发明中，位置隐私安全性主要指发布的轨迹数据能被攻击者识别的概率，由差分隐私保护方法的特点可知，实际差分隐私预算ε的大小，直接反映了实现隐私保护水平的高低；ε的值越小，添加的噪声就越多，实现的隐私保护水平越高，车辆轨迹数据的安全性越好。

在差分隐私中ε作为一个关键参数，用以确定隐私强度。研究表明，当ε＝1或更小时，数据可用性可以达到较为合理的水平。因此，本发明评估了ε为0.1～1下三种算法的安全性。

图6表明，随着隐私保护预算值ε的递增，实现的隐私保护水平在递减。从图中看出，三个算法的隐私水平相似，PR-Diff算法略高于其他两种算法。因为三种方法在添加噪声时，考虑了添加噪声序列和原始轨迹序列之间在时序上的相关性，在一定程度上使得原始轨迹序列和添加的噪声序列之间变得不可识别。但PR-Diff算法采用PageRank算法计算差分隐私预算参数，更好地体现了隐私参数分配的客观性，因此实现的隐私保护效果更好。

图7对比了不同隐私保护程度ε下的r分布。由公式15可知，距离r与概率密度D的关系，随着r的增大，概率密度先增大后减小。这是因为在一定半径范围内，ε越大，添加的噪声越小，隐私程度越小，随着半径的增大，ε的变化并不明显，需要借助不同ε下的累计概率分布C_ε(r)对比进行补充说明。

由图8可知，加入的噪声与差分隐私预算ε值成负相关，ε越小，则PR-Diff算法的隐私保护程度越高，需添加的噪声量越多。由此可知，隐私保护程度与位置服务的效率有相互制约的关系，要想有高的隐私保护程度就要以牺牲位置的准确性为代价，要保证位置的可用性就会造成隐私保护的削弱。

综上所述，本发明提出的PR-Diff算法利用序列位置点背景知识对当前位置点进行预测，使用PageRank算法为车联网用户的位置点分配差分隐私预算，再根据差分隐私预算的不同添加不同程度的拉普拉斯噪声。PR-Diff算法通过对位置点进行保护，达到保护数据隐私的前提下保证数据可用性的目的。在真实轨迹数据集上进行的实验结果表明，相较于现有的轨迹数据隐私保护方法，本发明方法在保护轨迹数据隐私的前提下，提高了数据可用性。在今后的研究中将考虑对PR-Diff算法进行继续优化，以提高位置数据的可用性并减少算法的运行时间，更好地扩展到实时的车联网位置服务中。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本说明书中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。