CN110262855B

CN110262855B - 车联网中基于背景信息的成员推测攻击原型系统

Info

Publication number: CN110262855B
Application number: CN201910450858.0A
Authority: CN
Inventors: 赵萍; 鲁敏
Original assignee: Donghua University
Current assignee: Donghua University
Priority date: 2019-05-28
Filing date: 2019-05-28
Publication date: 2022-03-29
Anticipated expiration: 2039-05-28
Also published as: CN110262855A

Abstract

本发明涉及一种车联网中基于背景信息的成员推测攻击原型系统，一个实施例的方法包括：成员推测攻击模型建立模块，构造车联网中基于背景信息的成员推测攻击模型；背景信息获取模块，获取车联网用户的位置数据和目标用户的朋友的位置数据；位置数据合成模块，基于特征相似性函数合成目标用户的位置数据；成员推测攻击模块，设计成员推测攻击算法，判断目标用户是否在所给集合中；算法评估模块，运用真实数据集合仿真，得到推测成功率和隐私度损失大小。本实施例方案可以借楼车联网中基于背景信息的隐私泄露问题的原因，对研究车联网中隐私保护机制促进车联网健康稳定发展具有指导作用。

Description

车联网中基于背景信息的成员推测攻击原型系统

技术领域

本发明涉及信息处理技术领域，特别是涉及一种车联网中基于背景信息的成员推测攻击原型系统。

背景技术

随着移动互联网的迅速发展，集成了现代信息技术的车联网在人们的生活中发挥着越来越重要的作用。在车联网用户中，用户数据被收集到中央处理器，中央处理器对用户的数据进行分析统计，并将相关统计结果用于支持改善车联网应用服务。然而，敌手可以根据统计结果推测目标用户是否是统计数据的成员，进而泄露目标车联网用户更多的个人敏感信息，即成员推测攻击。

目前针对成员推测攻击问题的研究大多是在基因组研究的背景下，例如健康统计或身体特征数据这些与敏感信息相关的数据通常以集合的形式发布，某些研究通过将目标的个人资料数据与案例研究的全部数据和从公共资源获得的参考人群的数据集合进行比较，可以了解目标个体是否属于与某种疾病相关的案例研究数据集合。但是此项研究所需的背景知识相对较多。然后另一些研究对这种攻击问题进行了扩展，即利用人类基因组内的相关性特征减少对目标个体的背景信息的需求，但是这些研究都需要大量的数据进行支撑，并且计算开销非常的大。因此，还有一些研究集中在机器学习领域，使用较少的数据，关注机器学习即服务应用中生成模型的隐私泄漏问题。

发明内容

本发明的目的是：降低车联网用户隐私泄露风险。

为了达到上述目的，本发明的技术方案是提供了一种车联网中基于背景信息的成员推测攻击原型系统，其特征在于，包括：

成员推测攻击模型建立模块，构造车联网中基于背景信息的成员推测攻击模型，其中，成员推测攻击模型建立模块基于对抗性游戏定义，将问题实例化为敌手和挑战者之间进行的一个二元分类任务并用机器学习进行二元分类，成员推测攻击模型中假设敌手通过背景信息获取模块获得背景信息，敌手通过成员推测攻击模块及位置数据合成模块推断出目标用户u^*是否在车联网用户集合中，其中：

背景信息获取模块，用于获取已经收集的车联网用户的位置数据集合S'和目标用户u^*的朋友的位置数据集合S；

位置数据合成模块，基于特征相似性函数合成目标用户u^*的位置数据；

成员推测攻击模块，设计成员推测攻击算法，判断目标用户是否在所给集合中；

所述系统还包括，算法评估模块，运用真实数据集合仿真，得到推测成功率和隐私度损失大小。

优选地，所述位置数据合成模块中，基于特征相似性函数合成目标用户u^*的位置数据包括以下步骤：

步骤1、把目标用户u^*的每个朋友的位置轨迹进行语义标记，研究时间(t,t+Δt)时间段内所有朋友的位置的语义特征，把出现次数最多的语义特征定义为目标用户在此时间段内的语义特征；

步骤2、研究已经收集的位置数据集合S'，选择同样的时间段内的位置数据，对这些数据进行语义特征的标记；

步骤3、定义一个特征相似性函数，把位置数据集合S'中与目标用户u^*的朋友的位置数据语义特征相似性最高的数据作为目标用户u^*的位置数据。

优选地，步骤3中，记σ为车联网用户u和v之间位置数据的相似度关系，r,r',r”为随机的位置，τ,τ'为两个时间间隙，定义用户u和用户v在时间间隔{τ,τ'}内的不同度

为：

其中，Mallows距离M_dist(·)是给定的时隙τ,τ'上在所有随机变量r'上计算得到的，均值E是在基于所有随机变量r上计算得到的；dist(·)表示任意两个位置之间的距离；

为用户u在当前时隙τ，当前位置r的条件下，在下一时隙τ'位置处于r'的条件概率；

为用户v在当前时隙τ，当前位置r的条件下，在下一时隙τ'位置处于r'的条件概率；

则用户u和用户v之间相似度sim_s(u,v)为：

其中，z_s是给定dist(·)下Mallows距离最大值的归一化常数。

优选地，基于游戏的定义，所述成员推测攻击算法设计过程包括观察期间T_O内敌手背景信息的建立，区分函数d的实例化，最后通过隐私度量指标PL来衡量成员推测攻击的性能。

优选地，所述成员推测攻击算法包括以下步骤：

考虑一个敌手在观察期间T_o内已知发布的位置数据集合，此时，T_O≠T_I，T_I为推测期间，敌手已知共有β组用户位置数据集合W_i，用户位置数据集合W_i的用户人数规模是m，β组用户位置数据集合W_i中可能包含也可能不包含目标用户u^*，定义背景信息如下：

式中，P表示背景信息，

表示β组用户W_i的聚合的位置数据集合，

是对目标用户与成员组W_i的成员关系的数学建模，考虑两种情况：情况一)敌手已知目标用户在过去组中的参与情况，这些组也用于计算推断期间发布的聚合，即训练数据集和测试数据集合中都包含目标用户u^*；情况二)敌手已知目标用户在过去组中的参与情况，这些组不用于计算推断期间发布的聚合，即训练数据集中不包含而测试数据集中包含目标用户u^*；情况一)模拟了与特定组有关的连续数据发布的情况，在这种情况下，车联网用户随着时间的推移是稳定的，即敌手已经观察到目标用户参与过过去的组；情况二)则模拟了随着时间的推移，目标用户移动到一个新的用户组，车联网用户随着时间的推移是不稳定的，敌手试图推断出目标用户是否是已发布集合中的一员；

定义区分函数如下：记区分函数为d，该函数的输入变量是u^*,

m,T_I,P，式中，

表示用户组位置数据集合，使用有监督的机器学习分类器来实例化区分函数d，敌手的区分目标建模为一个二元分类任务，根据目标车联网用户是否在集合中将观察数据分为两类；

根据敌手的推测成功率以及隐私损失大小来衡量成员推测攻击算法的性能，基于发布的车联网用户的位置数据集，对于一系列的游戏实例u^*，计算敌手的猜测b'，定义以下四种情况：

TP：当b＝0且b'＝0，b表示随机数，b＝{0,1}；

TN：当b＝1且b'＝1；

FP：当b＝1且b'＝0；

FN：当b＝0且b'＝1；

分别计算TP,FP的几率TPR,FPR：

TPR＝TP/(TP+FN)；

FPR＝FP/(FP+TN)；

根据上式得到接收机工作特性曲线ROC，该曲线ROC表示在不同识别分类阈值下得到的TPR和FPR大小，并计算曲线下面积AUC，面积AUC表示在区分游戏中捕捉分类器的整体性能，则定义隐私损失PL如下：

优选地，算法评估模块通过两个具有不同移动特性的真实的数据集作为机器学习的训练数据，从而验证所述成员推测攻击算法的有效性，得到推测成功率和隐私度损失度大小。

本发明涉及的研究和背景技术中所论及的针对成员推测攻击问题的研究不同，本发明研究的是车联网背景下基于背景信息的成员推测攻击问题。这将是一个更大的挑战，在本发明所述研究中，敌手只知道目标用户朋友的位置数据信息和他的朋友关系，相比较于以上的研究，敌手已知的背景信息更少，这使得成员推测攻击的难度进一步加大。

由于采用了上述技术方案，本发明与现有技术相比，具有如下的创新点：本发明引入了一种通用的方法来研究车联网中基于背景信息的成员推测攻击问题，将成员推测攻击问题形式化为可区分的游戏，并用机器学习分类器实例化区分任务。本发明证明敌手可以用更少的背景信息成功地进行成员推测攻击。本发明还提出了一种用来合成目标车联网用户位置数据的方法，本发明使用两个真实的移动数据集部署此方法并且本发明还量化了车联网用户的隐私泄漏程度。

附图说明

图1是实施例工作环境的示意图；

图2是实施例车联网用户端的组成结构示意图；

图3是实施例中车联网中基于背景信息的成员推测攻击原型系统的方法流程图；

图4是实施例中车联网中基于背景信息的成员推测攻击原型系统实现的总体研究思路图；

图5是基于特征相似性函数的目标用户的轨迹合成模型示意图；

图6是成员推测攻击算法设计示意图；

图7是实施例中的车联网中基于背景信息的成员推测攻击原型系统实现的模块示意图。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

图1示出了本发明一个实施例中的工作环境示意图。如图1所示，中央处理器102收集车联网用户101的位置数据信息，但是中央处理器102是不可信的，会出卖、泄露车联网用户101的信息给敌手103，同时敌手103可以从一些社交平台上获得目标车联网用户朋友社交关系104。敌手通过掌握的背景信息试图进行成员推测攻击，得到推测成功率以及隐私度损失大小两个数值。

敌手端103在一个实施例中的结构示意图如图2所示，包括处理器、数据库和一种车联网中基于背景信息的成员推测攻击原型系统实现的计算机应用程序；该计算机应用程序由处理器执行；通信接口主要用于敌手103和中央处理器102之间的通信。图2中示出的结构，仅仅是于实施例方案相关的部分结构的框图，并不构成本实施例方案所应用于其上的服务器的限定，具体的服务器可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

图3示出了一个实施例中的车联网中基于背景信息的成员推测攻击原型实现系统的方法流程图，该实施例是以敌手端103的处理过程为例进行说明。

如图3所示，该实例中的车联网中基于背景信息成员推测攻击原型系统的实现方法包括：

步骤S301：构造车联网中基于背景信息的成员推测攻击模型；

步骤S302：获取车联网用户的位置数据和目标用户的朋友的位置数据；

步骤S303：基于特征相似性函数合成目标用户的位置数据；

步骤S304：设计成员推测攻击算法判断目标用户是否在所给集合中；

步骤S305：得到推测成功率大小以及隐私损失度大小。

根据本实施例的方案，敌手端103首先构造车联网中基于背景信息的成员推测攻击模型；在获取的车联网用户101的位置数据及其朋友关系104后；基于特征相似性函数合成目标用户的位置数据；在此基础上，敌手103设计成员推测攻击算法进行成员推测攻击；本实施例的方案首次从车联网背景信息的角度研究成员推测攻击问题，对进一步降低车联网用户隐私泄露风险、促进车联网创新健康稳定发展和更加广泛的应用具有十分现实理论意义和应用价值。

在本实例的一个具体事例中，在上述步骤S305得到推测成功率大小以及隐私损失度大小之前，还包括步骤：

设计成员推测攻击算法进行成员推测攻击，判断目标用户是否在所给集合中。

基于如上所述的实施例，图4给出了一个具体示例中的车联网中基于背景信息的成员推测攻击原型系统的研究思路示意图。

敌手在获得中央处理器102收集的位置数据集以及目标用户朋友104的位置数据集后；基于特征相似性函数产生目标用户的位置数据；此外，本发明将采用两个真实移动的数据集进行算法仿真验证；最终得到敌手103推测成功率以及目标用户隐私损失度大小。

本实施例的目的是从车联网背景信息的角度研究成员推测攻击问题，首次将问题建模为一个二进制分类游戏，运用机器学习进行目标分类。本发明对进一步降低车联网用户隐私泄露风险、促进车联网创新健康稳定发展和更加广泛的应用具有十分现实理论意义和应用价值。

如图5所示，敌手103在获取中央处理器102的位置数据和目标用户朋友的位置数据以后，基于两个数据集合合成目标车联网用户的位置数据集。考虑位置数据的动态性与实时性，本发明提出了一种基于位置语义相似度的轨迹合成机制。

合成轨迹时要将车联网用户101的位置数据(地理空间)转换为语义空间，并将语义空间概率转换回地理空间。因此，合成的目标用户的轨迹在地理上和语义上是合理的。具体方法如下：

本发明考虑的情况是：敌手已知目标用户的朋友的位置数据，并且已经知道中央处理器102收集的轨迹信息(用集合S'表示)。假设目标用户朋友的轨迹数据(轨迹信息)是集合S，本发明使用S中的轨迹作为种子来生成目标车联网用户的合成轨迹数据，数据集中的每个种子轨迹来自不同的目标用户的朋友。本发明计算位置集合R中所有位置的语义相似度，并创建一个位置语义图G(R,E,w)，使顶点在R中，E表示图中的边，w表示边的权。用户u和v的位置分别记作r,r'，并且根据用户之间的相似性，r,r'位置之间的语义映射为

基于此计算用户对之间相似度的加权和，并用权重w_G(r,r')表示该加权和。然后，通过简单地将轨迹中的每个位置替换为其语义上等效的所有位置将轨迹的位置信息转换为其相应的语义信息。

假设两个用户u和v在地理位置上存在某种相似性，用σ表示两用户之间位置数据的语义相似性关系。在某个地理区域中，用户u的位置记作R_u，那么用户v的运动轨迹可以相应的表示为σ^-1(R_u)。这里需要特别强调的是，可以用来合成目标车联网用户的位置数据可以有多个，选择相似度σ最大的位置数据作为目标车联网用户的位置数据。本发明将给出不同度以及相似度的定义。

记σ为车联网用户u和v之间位置数据的相似度关系，r,r',r”为随机的位置，τ,τ'为两个时间间隙。定义用户u和用户v在时间间隔{τ,τ'}内的不同度

为

其中，Mallows距离M_dist(·)是给定的时隙τ,τ'上在所有随机变量r′上计算得到的，均值E是在基于所有随机变量r上计算得到的。其中，dist(·)表示任意两个位置之间的距离，

理解为用户u在当前时隙τ，当前位置r的条件下，在下一时隙τ位置处于r的条件概率。同理，

表示用户下一时刻位置的条件概率。

基于不同度的定义，给出相似度的定义，假设在任意的时间序列上，用户u,v之间相似度大小为式

其中，z_s是给定dist(·)(表示任意两个位置之间的距离的函数)下Mallows距离最大值(期望值)的归一化常数，这样做可以确保相似度大小的取值范围是[0,1]。

式(1)计算了用户u,v之间语义不同度大小，根据

(σ函数可以最小化式2-1)，用户v的位置被标记并且被映射到用户u的位置上。考虑在给定时间段τ上，用户u,v的当前位置分别为r,σ(r)，下一个位置分别为r',σ(r')，Mallows距离M_dist用来计算用户u,v语义不同度大小。根据交通图，如果两个用户在这些位置上的移动相似，就说他们在这些位置上具有语义相似性。如果在不同的时间段和不同的地理区域中，他们的位置都具有相似性，那么这种相似性大小可以用

确定。通过式(2)可以计算该相似度的大小。

图6示出了算法的具体过程，本发明首先介绍了敌手103在观察期间T_O内敌手背景信息的建立，然后实例化区分函数d，最后给出了隐私度量指标PL来衡量成员推测攻击的性能。

考虑一个敌手在观察期间T_o内已知中央处理器102发布的位置数据集合，此时，T_O≠T_I，即

T_I为推测期间。敌手103已知共有β组用户集合W_i，每组的用户人数规模是m，这些组中可能包含也可能不包含目标用户u^*。也就是说，敌手103已知的信息是：(1)

表示β组用户W_i的聚合的位置数据集合(2)目标用户的成员关系。定义背景信息如下：

其中，

是对目标用户与成员组W_i的成员关系的数学建模。本发明考虑两种情况：(a)敌手103已知目标用户在过去组中的参与情况，这些组也用于计算推断期间发布的聚合，即训练数据集和测试数据集合中都包含目标用户。(b)敌手103已知目标用户在过去组中的参与情况，这些组不用于计算推断期间发布的聚合，即训练数据集中不包含而测试数据集中则包含目标用户。(a)模拟了与特定组有关的连续数据发布的情况，在这种情况下，车联网用户101随着时间的推移是稳定的，即敌手103已经观察到目标用户参与过过去的组。(b)则模拟了随着时间的推移，目标用户移动到一个新的用户组，车联网用户101随着时间的推移是不稳定的，敌手103试图推断出目标用户是否是已发布集合中的一员。

定义区分函数如下：记区分函数为d。该函数的输入变量是u^*,

m,T_I,P，

表示用户组位置数据集合，本发明选择使用有监督的机器学习分类器来实例化区分函数d。敌手103的区分目标可以建模为一个二元分类任务，也就是说，根据目标车联网用户是否在集合中将观察数据分为两类。

本发明根据敌手103的推测成功率以及隐私损失大小来衡量成员推测攻击算法的性能。

基于发布的车联网用户的位置数据集，对于一系列的游戏实例u^*，计算敌手的猜测b'。本发明定义以下四种情况：

TP：当b＝0且b'＝0，b表示随机数b＝{0,1}

TN：当b＝1且b'＝1

FP：当b＝1且b'＝0

FN：当b＝0且b'＝1

分别计算TP,FP的几率TPR,FPR，其中，

TPR＝TP/(TP+FN),FPR＝FP/(FP+TN) (4)

基于式(4)的定义，本发明推导出接收机工作特性曲线ROC,该曲线表示在不同识别分类阈值下得到的TPR和FPR大小，并计算曲线下面积AUC，AUC表示在区分游戏中捕捉分类器(即敌手的推测能力)的整体性能。

定义隐私损失PL如下：

PL是一个介于0和1之间的值，当敌手103区分目标用户是否是集合的一部分时，它反映了敌手103利用成员推测攻击相对于随机猜测(成功率为

)取得成功的优势。

图7示出了一个实施例中的车联网中基于背景信息的成员推测攻击原型实现系统的模块示意图。如图7所示，该实施例中的车联网中基于背景信息的成员推测攻击原型实现系统模块包括：

成员推测攻击模型建立模块701，用于构造车联网中基于背景信息的成员推测攻击模型；

背景信息获取模块702，用于获取车联网用户101的位置数据和目标用户的朋友104的位置数据；

位置数据合成模块703，用于基于特征相似性函数合成目标用户的位置数据；

成员推测攻击模块704，用于设计成员推测攻击算法，判断目标用户是否在所给集合中；

算法评估模块705，用于通过真实数据集合仿真，得到推测成功率和隐私度损失大小。

根据本实施例的方案，敌手获取车联网用户101的位置数据和目标用户朋友的位置数据以后，构造一个特征相似性函数，基于特征相似性函数合成目标车联网用户的轨迹，在此基础上划分数据集，产生机器学习的训练数据集合测试数据集，最终获得推测成功率合隐私损失度大小。本实例首先从车联网中的背景信息的角度探索车联网中成员推测攻击的实际可行性，对进一步研究车联网中的隐私保护等问题具有一定的指导作用。