CN111770454A

CN111770454A - 移动群智感知中位置隐私保护与平台任务分配的博弈方法

Info

Publication number: CN111770454A
Application number: CN202010629965.2A
Authority: CN
Inventors: 沈航; 蔡威; 白光伟; 王天荆
Original assignee: Nanjing Tech University
Current assignee: Nanjing Tech University
Priority date: 2020-07-03
Filing date: 2020-07-03
Publication date: 2020-10-13
Anticipated expiration: 2040-07-03
Also published as: CN111770454B

Abstract

本发明提出一种移动群智感知中位置隐私保护与平台任务分配的博弈方法，本方法首先通过可信第三方模拟用户和平台的交互：每个用户选择隐私预算给位置添加噪声，平台根据每个用户的扰动位置分配任务。然后将交互过程建模为博弈，并推导出均衡点。最后使用强化学习方法不断尝试不同的位置扰动策略，输出一个最优的位置扰动方案。实验结果表明该机制能在优化任务分配效用的同时，尽可能提高用户的整体效用，使用户与平台达成双赢。本方法解决了在MCS系统需要为用户提供个性化隐私保护,以吸引更多用户参与任务的过程中，由于恶意攻击者的存在，用户提升隐私保护力度会导致位置可用性变差，任务分配效用降低的问题。

Description

移动群智感知中位置隐私保护与平台任务分配的博弈方法

技术领域

本技术方案属于网络技术领域，具体是一种移动群智感知MCS中(用户)位置隐私保护与平台任务分配的双赢的博弈方法。

背景技术

近年来，物联网技术的蓬勃发展极大促进了移动群智感知(MCS)的流行。一个典型的MCS系统由数据请求者、服务器(MCS平台)以及移动用户组成。服务器将数据请求者的任务分配给MCS系统中的移动用户，移动用户使用移动智能设备完成数据采集发送回服务器并获取一定的报酬。

任务分配是MCS系统中最重要的环节之一。目标是在完成目标感知区域的所有(或大部分)任务的同时，优化整个系统的效用。最小化旅行距离通常被选作MCS任务分配的优化目标。然而，旅行距离的计算离不开用户的位置信息，如果向MCS平台传送真实的位置，用户将面临个人隐私泄露的风险。因此，为了吸引更多的用户参与感知任务， MCS系统必须为用户提供位置隐私保护。

传统位置隐私保护技术中的空间伪装技术，也可用于MCS任务分配中的用户位置隐私保护。如果MCS系统中的恶意攻击者拥有一定的先验知识，那么这种技术提供的隐私保护级别就很容易被降低。在不考虑对手先验知识的情况下，可以使用差分隐私技术为用户提供有力的位置隐私保护。此外，考虑到不同的用户对于隐私保护的需求不同，MCS 系统需要为用户提供可供选择的多种不同隐私预算的隐私保护。

旅行距离是衡量MCS任务分配代价的一个重要指标。有研究者提出了一个考虑时间敏感性的任务分配框架ActiveCrowd，以最小化移动的总距离为目标，解决MCS中多任务的用户选择问题。由于MCS平台预知所有用户的真实位置，这可能会泄露用户位置隐私，降低用户参与感知的意愿。也有研究者使用LBS中传统的空间伪装技术保护任务分配中用户的位置隐私。还有研究者提出了基于差分隐私和地理定位的空间众包机制，在为用户提供隐私预算相同的位置隐私保护的同时对外提供高效的服务。一些研究者通过差分隐私技术，模糊用户位置，在任务分配过程中给所有用户提供力度相同的位置隐私保护。然而，该框架难以适应用户差异化隐私保护需求。考虑到用户个性化隐私保护需求，还有研究者提出了个性化的隐私保护任务分配框架，使用K-匿名的思想，允许用户指定自己的隐私预算，从而给用户提供个性化位置隐私保护。由于用户选择隐私预算的随意性强，尤其是当MCS系统中存在恶意攻击者时，用户选择隐私保护力度更大的隐私预算将导致用户位置可用性降低，不利于MCS平台分配任务。

发明内容

由上述现有技术的讨论，可知，在设计提供个性化隐私保护的任务分配框架过程中，除了需要保证MCS平台高效地分配任务外，还要为用户提供力度更合适的位置隐私保护。

博弈论是一种解决MCS系统性能权衡问题的有效途径，如在MCS激励机制的相关研究中，博弈论被用作提供诸如拍卖、定价和基于信誉的机制之类的方法，以激励用户参与MCS感知。可信第三方(TTP)是机制中最为重要的一部分。TTP不仅要给用户提供位置隐私保护，还要模拟用户选择隐私预算和MCS平台分配任务的交互，为用户制定最合适的个性化隐私保护。

移动群智感知MCS系统需要为用户提供个性化隐私保护,以吸引更多用户参与任务。然而，由于恶意攻击者的存在，用户提升隐私保护力度会导致位置可用性变差，降低任务分配效用。

本发明提出一种移动群智感知中位置隐私保护与平台任务分配的博弈方法，本博弈方法是基于强化学习的用户与平台共赢的博弈方法，其步骤包括：

首先通过可信第三方TTP模拟用户和MCS平台的交互：每个用户选择隐私预算给位置添加噪声，MCS平台根据每个用户的扰动位置分配任务；

然后将上述交互过程建模为博弈，并推导出均衡点；

最后使用强化学习方法不断尝试不同的位置扰动策略，输出一个最优的位置扰动方案。

本发明的用户位置隐私保护与平台任务分配双赢的博弈方法，使用强化学习算法，通过不断尝试所有用户的位置扰动方案组合，训练出一个可以输出最优位置扰动策略的离线模型。实验结果表明本发明的隐私预算任务分配博弈可以在提供个性化隐私保护的MCS系统中，为用户制定个性化且最合适的位置隐私保护，使得在保证任务分配效用的同时，尽可能提高用户的隐私保护力度，达成用户与平台双赢的局面。

附图说明

图1是MCS系统整体框架；

图2是可信第三方TTP中的隐私预算-任务分配博弈示意图；

图3是基于强化学习的决策框架；

图4a和图4b是本发明算法与随机算法的性能对比示意图；

其中：图4a是用户整体效用，图4b是任务分配效用；

图5a和图5b是用户数的影响示意图；

其中：图5a是用户整体效用，图5b是平均旅行距离；

图6a和图6b是任务发布半径的影响示意图；

其中：图6a是用户整体效用，图6b是平均旅行距离。

具体实施方式

下面结合附图与具体实施方式对本技术方案进一步说明：

1方案总述

针对该问题，本发明提出的博弈方法首先通过可信第三方模拟用户和平台的交互：每个用户选择隐私预算给位置添加噪声，平台根据每个用户的扰动位置分配任务。然后将交互过程建模为博弈，并推导出均衡点。最后使用强化学习方法不断尝试不同的位置扰动策略，输出一个最优的位置扰动方案。实验结果表明该机制能在优化任务分配效用的同时，尽可能提高用户的整体效用，使用户与平台达成双赢。本方法解决了在MCS 系统需要为用户提供个性化隐私保护,以吸引更多用户参与任务的过程中，由于恶意攻击者的存在，用户提升隐私保护力度会导致位置可用性变差，任务分配效用降低的问题。

本博弈方法身在移动群智感知MCS系统中，在收到任务请求后，MCS平台发布任务；有意愿执行任务的提供位置信息给MCS平台；MCS平台选择用户并分配任务，其特征是由可信第三方TTP模拟用户和MCS平台的交互；步骤包括：1)对于MCS平台发布的任务，有意愿执行任务的用户将到所申请任务的真实距离和隐私预算传给TTP；2) 在TTP中模拟用户和MCS平台的交互过程，并得到用户最优的扰动位置；3)MCS平台根据来自TTP的用户最优的扰动位置来选择用户分配任务；

所述步骤2)中用斯坦科尔伯格博弈模拟用户与MCS平台间的交互过程，用领导者用户整体作为斯坦科尔伯格博弈模型中的领导者，MCS平台作为模型中的跟随者；领导者和跟随交互过程的步骤为：

2.1)领导者选择隐私预算，并向跟随者传达其位置的扰动策略；

2.2)跟随者根据领导者的扰动策略，以最小化旅行距离为其分配任务；

2.3)在收到跟随者的任务分配结果后，领导者调整扰动策略，向跟随者传达其新的位置的扰动策略，重复执行步骤2.2)直到均衡点后结束循环，得到最优的位置扰动策略；在均衡点下，保证任务分配效用的同时最大化领导者效用的最优状态；

2.4)由均衡点时的最优的位置扰动策略得到用户最优的扰动位置，再进入步骤3)处理。

所述步骤2.2)和2.3)中，使用强化学习方法不断尝试不同的位置扰动策略，最后得到最优的位置扰动策略。

首先，用马尔科夫决策过程表示得到最优扰动策略的过程：然后，采用Q-learning算法求解马尔科夫决策过程，求从初始状态s⁽¹⁾出发使得累计回报值最大化收敛的最终执行动作；

以下：

第2部分介绍本发明的系统模型；

第3部分对提出的博弈机制进行问题建模；

第4部分将决策问题MDP化，并使用Q-learning算法求解；

第5部分是算法性能对比与实验结果分析。

2系统模型

如图1所示，MCS系统的整体框架包括MCS平台、用户和可信第三方TTP。

在收到请求任务后，平台发布任务集合

与之对应的任务发布区域半径集合为

在任务分配阶段，平台根据可信第三方传来的任务申请信息，以最小化旅行距离为目标分配任务，生成分配矩阵A_n×m，完成任务分配。

系统中的移动用户集合表示为w＝{w₁，w₂，...，w_n}。在平台发布任务后，每个用户w_i发送一个三元组

给可信第三方。其中变量

是用户w_i所能接受的最大隐私预算(隐私预算越大，隐私保护力度越小，位置隐私泄露的可能性越大)，集合

表示用户w_i申请的任务集合，向量

表示用户w_i到k_i个任务的真实距离向量。在平台分配任务后，根据分配矩阵A_n×m到特定的任务位置执行分配给自己的任务。

可信第三方是位置隐私保护的提供者，也是用户最优位置扰动方案的决策者，是本系统中极为重要的一部分。

表示可信第三方提供h种不同保护力度的隐私预算集合。在收到用户上传的三元组后，可信第三方为用户w_i提供隐私预算ε_i(

即满足用户w_i的个性化需求)的位置隐私保护，得到所有用户的位置扰动策略向量π＝(ε₁，ε₂，...，ε_n)，然后模拟平台以最小化旅行距离分配任务，生成分配矩阵A_n×m，再根据分配矩阵调整用户的位置扰动策略π使得用户效用最大化，然后再进行任务分配，不断迭代，得到最优的位置扰动策略

最后，可信第三方将用户w_i的任务申请信息

上传给真实的系统平台。

假定每个用户可以申请多个任务，每个任务只能分配给一个用户，且一个用户只能执行一个任务。

3问题建模

首先介绍泛化差分隐私的概念，然后分析系统提供的位置隐私保护，接着介绍平台的任务分配方式，最后阐述用户隐私保护-平台任务分配博弈，并推导出博弈的均衡点。

3.1泛化差分隐私

对于任意两个邻近的数据集x，x′和任意输出Y，如果概率分布M(x)，M(x′)在Y上最大差异为e^ε，即M(x)(Y)≤e^εM(x′)(Y)，那么机制M是满足隐私预算为ε的差分隐私。对于任意两个位置x和x′，如果它们的欧氏距离满足d(x,x′)≤r，那么在模糊机制M下， M(x)和M(x′)的差异不超过εr，ε表示单位距离的隐私预算。在这种情形下，即使恶意攻击者知道了模糊机制M，也无法辨别出真实的位置。

定义1.(

差分隐私)机制M满足

差分隐私当且仅当对于任意

都有

其中M(x)(Y)表示将x属于集合Y的概率。

其中ε是隐私预算，ε越小，隐私保护的力度越大，d(x，x′)表示x与x′之间的距离。

定义2.(Laplace机制)假设有

两个集合，

是

上的一个度量指标。

中所有元素x的概率密度函数是

其中

那么机制M：

是从

到

的Laplace机制，并且满足

差分隐私。

特别地，当

和

的元素都是一维时，Laplace机制表示变换值y是由初始值x添加相应的噪声产生，即y＝x+Lap(1/ε)。此时机制M满足条件为

的差分隐私。

命题1.如果

那么满足

差分隐私也满足

差分隐私。

很明显，对于任意一种满足

差分隐私的机制M，当

时，M也满足

差分隐私。

3.2位置隐私保护

有意愿执行任务的用户需要将到所申请任务的真实距离和隐私预算上传给TTP。TTP根据收到的隐私预算给真实距离添加相应的Laplace噪声，使得攻击者即使知道具体的位置模糊机制也无法推断出用户的真实位置信息，从而保护用户的位置隐私。

由于用户需要上传到申请的任务的真实距离给TTP，TTP最终也会将扰动后的扰动距离上传给MCS平台，所以用户申请的任务数越多，暴露的位置信息就越多，隐私泄露的可能性也相应变大。同时隐私泄露的可能性与隐私预算也有着直接关系。

定理1.设

表示用户w_i到申请的任务集合

的真实距离向量，ε_i为用户w_i的隐私预算，

是任务集合

中任务的发布半径集合。对于机制M：M(d_i，ε_i)＝d_i+Lap(1/ε_i)，满足条件为

的差分隐私。

证明：对于任意的d_i，

d_ij∈d_i和d_ij∈d_i都表示用户w_i到任务t_j可能的真实距离，且有

表示报告给MCS平台的用户w_i到任务集合

扰动距离向量，即

其中

是服从Laplace(0，1/ε_i)的k_i个独立同分布的随机变量。因此，有

又有

所以M:M(d_i，ε_i)＝d_i+Lap(1/ε_i)满足隐私水平为

的差分隐私。

定理1表明：用户的隐私水平与选择的隐私预算和申请的任务有关。隐私预算越小，隐私保护力度越大；申请的任务数量越少，暴露的位置信息越少；申请任务的发布半径越小，处于同一个任务区域的两个真实位置的不可分辨性越大。

可信第三方在收到用户w_i发送的三元组

后，M(d_i，ε_i)为之提供位置隐私保护。其中

即提供力度更大的隐私保护。

由命题1可以知道，此时，扰动机制M(d_i，ε_i)仍然是是满足隐私水平为

的差分隐私的。

3.3任务分配

平台根据可信第三方传来的用户最小隐私预算、申请任务集合和扰动后的距离向量，将每个任务的申请者按照距离任务更近的可能性降序排序。计算出所有任务的申请者降序序列后，将每个任务分配给最近的用户。

假设用户w_a和w_b是任务t_j任意两个申请者，d_aj和d_bj分别表示他们到任务的真实距离。当d_aj＜d_bj时，则t_j分配给w_a的可能更大。换言之，当

时，在任务 t_j的降序排序序列中，用户w_a排在用户w_b的前面。

是通过在d_aj上添加拉普拉斯噪声得到的，由此可以得到

同理可得

其中μ_a，μ_b分别是Laplace(0，1/ε_a)，Laplace(0，1/ε_b)上的变量。所以有

记平面集

则公式(3)可进一步表示为

对公式(4)做二重积分求值即可算出用户w_a比用户w_b距离更近的概率，从而确定w_a和 w_b在任务t_j序列中的前后顺序。对任务t_j的所有申请者两两比较即可求出一个以到t_j距离升序排序的用户序列。对其他任务执行同样计算，则可以计算出一个排序矩阵

行S_j表示任务t_j的排序序列，元素s_ji＝k表示申请执行任务t_j的用户w_k在所有申请者中排在第i位。当i大于t_j申请人数时，s_ji＝∞。此时，以最小化整体旅行距离为目标的任务分配问题简化为将每个任务分配给排序矩阵S_n×m每行的第一个用户。但是当同一个用户排在多个任务的相同位次时会产生冲突，即这多个任务都会分配给该用户，此时可以通过0-1整数线性规划并结合公式(4)消除冲突求出最优分配方案。

任务分配的最终结果是生成一个分配矩阵

对任意a_ij∈A_n×m，有a_ij∈{0，1}。a_ij取值1表示任务t_j分配给了用户w_i。

表示每个任务至多分配给一个用户执行；

表示每个用户最多执行一个任务。

3.4隐私预算-任务分配博弈

为了给用户提供最合适的隐私保护，TTP需要模拟用户选择扰动策略、模拟平台分配任务以及模拟用户与平台间的交互。这个交互过程被建模为一个斯坦科尔伯格博弈(Stackelberg game)：用户整体作为领导者向平台传达整体用户的位置扰动策略；MCS平台作为跟随者根据用户的扰动策略，以最小化旅行距离为目标分配任务；在收到平台的任务分配结果后，用户调整整体的扰动策略使得整体效用最大化，以此不断交互。

博弈双方分别为TTP中的两个虚拟实体：领导者和跟随者。领导者模拟用户选择扰动策略，跟随者模拟平台分配任务。如图2所示，领导者首先为用户w_i选择一个隐私预算ε_i，提供满足隐私预算ε_i的保护机制M，将用户整体保护策略记作π，机制M(d_i，ε_i)通过公式

将用户M(d_i，ε_i)上传的到所申请任务的真实距离向量d_i扰动为向量

领导者将当前策略π上传给平台。跟随者根据收到的π，以最小化旅行距离为目标分配任务，得到一个任务分配矩阵A_n×m。a_ij是矩阵A_n×m的元素，取值为0或1。a_ij取值1表示任务 t_j分配给用户w_i，取值0则说明任务t_j没有分配给用户w_i。

在平台任务分配完毕后，用户w_i的效用函数期望为

其中，λ_i是用户w_i的隐私权重系数，表示用户在位置隐私保护和被分配任务之间的倾向力度，λ_i＞1表示更倾向于保护位置隐私。

表示可信第三方在提供隐私预算ε_i的差分隐私保护后，用户w_i模糊距离向量与真实距离向量之间的距离期望为

用户整体的效用函数期望可表示为

平台效用函数表示为

其中

表示被分配的任务数，

表示被分配任务的旅行距离期望。所以平台的效用是用平均旅行距离的倒数表示，平均旅行距离越大，平台的效用越低。

对于理性的用户来说，都要尽可能地最大化个人效用。也就是在被分配任务后，会尝试增大隐私保护力度，更好地保护隐私。如果没有被分配任务，则会尝试减小隐私保护力度，让自己更有机会被选中，进而提高个人效用。所以在跟随者每次模拟任务分配后，领导者都会根据当前的分配矩阵调整所有用户的隐私保护策略，使得用户整体效用期望最大。跟随者又会根据调整后的隐私保护策略以最小化旅行距离重新分配任务。领导者和跟随者通过不断交互，最终达到一个均衡点，即

这个均衡点是就是在优化任务分配效用的同时最大化用户整体效用的最优状态点。此时，用户根据当前任务分配结果选择出的最优的扰动策略就是当前的策略，平台根据当前用户的扰动策略进行任务分配的最优的结果就是当前的任务分配结果。

由于策略π的选择空间为

所以遍历的时间复杂度为O(h^m)。任务分配的时间复杂度近似为O(n²)；整体的时间复杂度约为O(h^mn²)。由于系统中用户数m往往很大，导致时间复杂度太高，暴力穷举法显然不是求解该问题的最佳方法。

4基于强化学习的位置扰动决策

强化学习适用于解决智能体在与环境交互过程中最大化回报值的问题，常见的模型是标准的马尔科夫决策过程(Markov Decision Process,MDP)。因此，本发明采用强化学习的方法解决高效任务分配下最大化用户效用的扰动策略决策问题。本节先介绍了位置扰动策略决策问题的MDP化，随后介绍了求解最优扰动策略的Q-learning算法。

4.1决策的MDP化

马尔科夫决策过程是一种序列决策模型，用于在系统状态具有马尔科夫性的环境中模拟智能体执行动作并获取回报。它通常表示为一个五元组＜S，A，P，R，γ＞，其中S表示系统状态，A表示智能体的动作，P表示系统状态间的转移函数，R表示回报，γ表示折扣因子。

可信第三方为用户选择最优扰动策略的过程可以看作一个马尔科夫过程。智能体为可信第三方中的领导者，环境为领导者和跟随者的交互过程。下面详细介绍位置扰动策略决策问题的MDP五元素：

系统状态由扰动策略向量π和任务分配矩阵A组成。初始状态s⁽¹⁾＝[π⁽⁰⁾，A⁽⁰⁾]，其中π⁽⁰⁾表示每个用户的隐私预算为上传给可信第三方的初始值，即用户所能接受的最小的隐私保护力度。

扰动策略

为领导者的动作。因为每个用户都可以选择可信第三方提供的隐私预算集合

中的任意一种满足自身隐私需求的位置扰动方案，所以领导者的动作策略空间为

在时刻t，系统状态s^(t)在采取动作π^(t)后到达状态s^(t+1)。因为状态由扰动策略和任务分配矩阵组成，且任务分配矩阵依赖扰动策略，所以下一时刻状态是由当前状态和当前动作决定，满足

P(s^(t+1)|s⁽¹⁾,π⁽¹⁾,s⁽²⁾,π⁽²⁾,...,s^(t),π^(t))＝P(s^(t+1)|s^(t),π^(t)) (14)

即状态转移具有马尔科夫性。

回报R表示当前状态下执行相应动作的奖励。使用公式(10)作为回报值计算公式，即在状态s^(t)采取动作π^(t)后，回报值等于此时用户整体的效用值。

折扣因子γ，0≤γ≤1，表示将来回报和当前回报的重要程度，γ＝0意味着只看当前奖励，γ＝1则表示将来奖励与当前奖励同样重要。

由于状态空间和动作空间都是有限的，所以扰动决策问题是有限的马尔科夫决策过程。将扰动决策转化为MDP后，隐私保护任务分配博弈中最优扰动选择问题转化为：求从初始状态s⁽¹⁾出发使得累计回报值最大化收敛的最终执行动作。

4.2基于Q-learning的位置扰动决策算法

Q-learning算法是一种有效的求解马尔科夫决策过程的无监督强化学习算法。智能体通过在不同的环境中不断地试错学习，找到最佳的策略达到回报值的最大化收敛。

在Q-learning算法中，智能体要创建一个决策矩阵Q，其中行表示状态，列表示动作，用来存储状态-动作对(s，π)的值，并初始化为零矩阵。Q矩阵通过如下贝尔曼方程(Bellman Equation)迭代更新：

Q(s,π)←(1-α)Q(s,π)+α(u_w(s,π)+γV(s')), (15)

其中α∈(0，1)表示学习率，取值越大，表示保留之前训练的结果越少；u_w(s，π)表示状态 s下执行动作π的回报值；s′表示在状态s执行动作π后的下一状态；γ是折扣因子，且有 0≤γ≤1，表示将来奖励和当前奖励对动作值函数(Q函数)的影响，γ＝0意味着动作值函数只和当前奖励相关，γ＝1意味着将来奖励与当前奖励对动作值函数同样重要；函数V(·) 表示Q矩阵下一状态中的最大值。

根据决策矩阵Q以及当前状态s，领导者可以使用e-greedy策略避免算法陷入局部最优。在状态s下,领导者以1-e的概率执行当前最优的动作

以e的概率随机选择动作。

基于Q-learning的扰动方案决策算法描述如下所示：

输入：

输出：π

开始

步骤1.初始化α,γ,

π，Q(s，π)＝0,A＝0

步骤2.for k←1to episode do

步骤3.s^(k)＝[A^(k-1)，π^(k-1)]

步骤4.通过e-greedy算法选择动作

步骤5.执行动作π，上传扰动后的用户位置给跟随者

步骤6.跟随者分配任务，生成分配矩阵A^(k)

步骤7.for i←1to m do

步骤8.用户w_i根据公式(9)计算效用

步骤9.end for

步骤10.根据公式(10)计算u_w(s^(k)，π^(k))

步骤11.根据公式(15)更新Q(s^(k)，π^(k))

步骤12.根据公式(16)更新V(s^(k))

步骤13.end for

步骤14.returnπ^*

结束

该算法输入所有用户的最小隐私预算

以及系统可选的隐私预算值集合

输出最优的扰动策略π^*。

步骤1中，对算法中用到的学习率α和折扣因子γ进行初始化，将决策矩阵Q初始化为零矩阵，任务分配矩阵初始化为零矩阵。

步骤2-13是一个循环体，episode表示训练最大迭代次数。步骤4在第一次循环时，领导者以用户上传的隐私预算初始值为隐私水平提供隐私保护。第二次循环及以后，领导者会使用e-greedy算法选择扰动方案，以1-e的概率利用之前训练的最优扰动策略，以e的概率随机选择扰动策略，避免局部最优。步骤5-6中，跟随者根据收到的用户隐私预算、扰动位置以及申请任务集合分配任务，并生成分配矩阵。步骤7-9是根据当前的分配矩阵计算每个用户的效用。步骤10中，根据每个用户的效用，计算整体的效用，也就是计算当前状态s^(k)下采取动作π^(k)的奖励。步骤11-12是更新决策矩阵Q中状态-动作对的值。

步骤14是输出达到收敛或者循环次数结束时的位置扰动策略π^*。

该算法共循环执行episode次，在每一次循环迭代中，领导者都可以通过Q表以O(1的时间复杂度获取当前最优的位置扰动方案策略π。跟随者分配任务的时间复杂度为 O(n²)。计算所有用户效用的时间为O(m)。综上所述，本发明提出的基于Q-learning的位置扰动决策算法的时间复杂度为O(episode×max)m，n²))。

5实验与结果分析

通过仿真实验评估了隐私预算-任务分配博弈机制的性能。下面介绍具体实验环境参数，并分析实验结果。

表1列出了实验中基本参数的取值设置。在5km×5km的感知环境区域中，有10个用户参与任务的感知，平台中有5个感知任务待分配，且每个任务的发布半径为1km。每个用户选择一个自己所能接受的最大隐私预算，假设每个用户的初始隐私预算均为5，然后在算法迭代中为每个用户选择出最合适的隐私预算。每个用户的隐私权重系数λ_i服从均值为1方差为5的正太分布。这是因为对于用户整体来说，位置隐私保护和被分配任务同样重要。Q-learning中的学习率、折扣因子和贪心策略系数分别设为0.2,0.7和0.8。

表1实验环境参数设置

Table 1 Experimental parameters

5.1Q-learning算法性能评价

用为用户随机选择扰动策略的随机算法作为Baseline与本发明的Q-learning算法对照。

图4a和图4b分别从用户整体效用和任务分配效用两个不同方面对本发明所用的Q-learning算法和随机算法的性能进行了对比。实验图表明无论是用户整体效用还是任务分配效用，Q-learning算法的性能都明显优于随机算法。随机算法由于在每次迭代过程中为每个用户随机地选择隐私预算，导致每次任务分配的结果不一致，用户效用和任务分配效用期望上下波动，无法收敛。图4a表明Q-learning算法中用户整体效用呈先增长后平稳的趋势。这是因为Q-learning算法刚启动时，默认选择每个用户上传的隐私保护力度最小的初始隐私预算，导致被分配任务的用户效用期望低。随着迭代次数的增加，算法不断为用户选择更合适的隐私预算，增大用户整体的效用期望。同样，图4b中，由于初始时用户的隐私保护力度小，在分配任务阶段，用户位置的可用性高，所以任务分配的结果更接近于最优值。随着用户效用期望的增加，用户隐私保护力度变大，位置可用性降低，导致旅行距离期望小幅度增大，任务分配效用略微降低。从实验结果看，本发明提出的机制能够在优化任务分配效用的同时，更好地保护用户的位置隐私，提高用户的整体效用，达到用户与平台双赢的局面。

5.2用户数对系统性能的影响

移动用户是MCS系统中必不可少的一部分，它的数量是衡量系统的性能的重要因素。图5a和5b展示了在任务数为5，任务发布半径为1km的MCS系统中，用户数对系统性能的影响。从图5b可以看出，随着用户数的增加，No-privacy和本发明提出的Q-learning 算法的平均旅行距离都在变小。这是因为用户数的增加会导致距离任务更近的新候选者出现。当任务被分配给新候选者时，平均旅行距离将明显减小，从而提高整体任务分配效用。同时，由于距离任务更远的候选者出现，采用随机选择的Baseline的平均旅行距离会有增大的可能。由于任务数固定，且距离任务近的用户可以选择更强的保护方案，所以被分配任务的用户的效用不会随着用户总数的变化而产生较大波动。实验结果表明用户数量增加会有效减小平均旅行距离，接近于无隐私保护的最优值，明显提高任务分配的效用。

5.3任务发布半径对系统性能的影响

任务的发布半径也影响着系统的性能，发布半径太小，可能导致任务发布范围内没有用户，任务无法被分配执行。图6a和图6b展示了在用户数为10，任务数为5的MCS 系统中，任务发布半径对系统性能的影响。从图6a和图6b可以看出，在发布半径小于 1km时，随着任务发布半径的增大，用户的整体效用和平均旅行距离都在变大。这是因为原本区域内没有用户的任务会随着发布半径的增大而被申请和成功分配。当半径大于 1km时，用户整体效用和平均旅行距离都趋于平稳。一方面的原因是所有的任务都已分配，不会再有新用户被分配任务。另一方面，此时任务分配的矩阵不会因为发布半径的增大而变化。

实验结果表明本发明的算法能够在提供个性化隐私保护的MCS系统中，在保证任务分配效用的同时，提高用户整体的效用。同时，在任务发布半径较大、参与感知任务用户数较多的MCS系统中，效果更优。

6结束语

本发明提出了一种移动群智感知MCS中的用户位置隐私保护与平台任务分配的双赢博弈机制，并通过强化学习手段求解出均衡点。其核心思想是：为用户提供个性化位置隐私保护以吸引更多的用户参与MCS感知任务；通过博弈在优化平台任务分配效用的同时尽可能提高用户整体的效用。实验结果表明，本发明提出的博弈机制能够很好地解决任务分配和保护用户位置隐私的平衡问题，并且在任务发布半径大、用户数多的系统中效果更好。

Claims

1.一种移动群智感知中位置隐私保护与平台任务分配的博弈方法，在移动群智感知系统MCS中，在收到任务请求后，MCS平台发布任务；有意愿执行任务的提供位置信息给MCS平台；MCS平台选择用户并分配任务，其特征是由可信第三方TTP模拟用户和MCS平台的交互；步骤包括：1)对于MCS平台发布的任务，有意愿执行任务的用户将到所申请任务的真实距离和隐私预算传给TTP；2)在TTP中模拟用户和MCS平台的交互过程，并得到用户最优的扰动位置；3)MCS平台根据来自TTP的用户最优的扰动位置来选择用户分配任务；

2.根据权利要求1所述的移动群智感知中位置隐私保护与平台任务分配的博弈方法，其特征是所述步骤2.2)和2.3)中，使用强化学习方法不断尝试不同的位置扰动策略，最后得到最优的位置扰动策略；

首先，用马尔科夫决策过程表示得到最优扰动策略的过程：

马尔科夫决策过程中，智能体作为领导者，环境作为领导者和跟随者的交互过程；马尔科夫决策过程的五个元素为：

元素1：t时刻下，系统状态s^(t)由位置扰动策略π^(t-1)和任务分配矩阵A^(t-1)组成；

初始状态为初始状态为s⁽¹⁾＝[π⁽⁰⁾，A⁽⁰⁾]，其中π⁽⁰⁾表示每个用户的隐私预算为传给TTP的初始值，即用户所能接受的最小的隐私保护力度；

元素2：位置扰动策略

为领导者的动作；每个用户都可以选择TTP提供的隐私预算集合

中的任意一种满足自身隐私需求的位置扰动方案，则领导者的动作策略空间为

元素3：在时刻t，系统状态s^(t)在采取动作π^(t)后到达状态s^(t+1)；系统状态由位置扰动策略和任务分配矩阵组成，且任务分配矩阵依赖扰动策略，则下一时刻状态是由当前状态和当前动作决定，P(s^(t+1)|s⁽¹⁾，π⁽¹⁾，s⁽²⁾，π⁽²⁾，...，s^(t)，π^(t))＝P(s^(t+1)|s^(t)，π^(t))，即状态转移具有马尔科夫性；

元素4：回报R表示当前状态下执行相应动作的奖励；在状态s^(t)采取动作π^(t)后，回报值等于此时用户整体的效用值；

元素5：折扣因子γ，0≤γ≤1，表示将来回报和当前回报的重要程度，γ＝0表示只看当前奖励，γ＝1则表示将来奖励与当前奖励同样重要；

由于状态空间和动作空间都是有限的，则位置扰动决策问题是有限的马尔科夫决策过程；

然后，采用Q-leaming算法求解马尔科夫决策过程，求从初始状态s⁽¹⁾出发使得累计回报值最大化收敛的最终执行动作；

在Q-leaming算法中，由智能体创建决策矩阵Q，其中行表示状态，列表示动作，用来存储状态-动作对的值；

初始化：对算法中用到的学习率α和折扣因子γ进行初始化，将决策矩阵Q初始化为零矩阵，任务分配矩阵初始化为零矩阵；

首先，领导者以隐私预算初始值为隐私水平提供隐私保护，通过e-greedy算法选择动作

接着，执行动作π，上传扰动后的用户位置给跟随者；跟随者根据收到的隐私预算、扰动位置以及申请任务集合分配任务，并生成分配矩阵A^(k)；

根据当前的分配矩阵计算每个用户的效用；

然后，根据每个用户的效用，计算整体的效用，即计算当前状态s^(k)下采取动作π^(k)的奖励；

通过贝尔曼方程迭代更新Q矩阵中状态-动作对的值；

重复上述过程；使得累计回报值最大化收敛的最终执行动作；

输出达到收敛或者循环次数结束时的位置扰动策略π^*。