CN111770454B - 移动群智感知中位置隐私保护与平台任务分配的博弈方法 - Google Patents
移动群智感知中位置隐私保护与平台任务分配的博弈方法 Download PDFInfo
- Publication number
- CN111770454B CN111770454B CN202010629965.2A CN202010629965A CN111770454B CN 111770454 B CN111770454 B CN 111770454B CN 202010629965 A CN202010629965 A CN 202010629965A CN 111770454 B CN111770454 B CN 111770454B
- Authority
- CN
- China
- Prior art keywords
- user
- task
- privacy
- platform
- disturbance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 230000008569 process Effects 0.000 claims abstract description 33
- 230000003993 interaction Effects 0.000 claims abstract description 21
- 230000002787 reinforcement Effects 0.000 claims abstract description 13
- 239000011159 matrix material Substances 0.000 claims description 38
- 238000004422 calculation algorithm Methods 0.000 claims description 37
- 230000009471 action Effects 0.000 claims description 32
- 230000000875 corresponding effect Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 2
- 230000007704 transition Effects 0.000 claims description 2
- 230000002452 interceptive effect Effects 0.000 claims 1
- 230000007246 mechanism Effects 0.000 abstract description 23
- 230000006870 function Effects 0.000 description 10
- 230000008447 perception Effects 0.000 description 8
- 239000003795 chemical substances by application Substances 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000012358 sourcing Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/02—Services making use of location information
- H04W4/029—Location-based management or tracking services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W12/00—Security arrangements; Authentication; Protecting privacy or anonymity
- H04W12/02—Protecting privacy or anonymity, e.g. protecting personally identifiable information [PII]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Bioethics (AREA)
- Computer Security & Cryptography (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Hardware Design (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提出一种移动群智感知中位置隐私保护与平台任务分配的博弈方法,本方法首先通过可信第三方模拟用户和平台的交互:每个用户选择隐私预算给位置添加噪声,平台根据每个用户的扰动位置分配任务。然后将交互过程建模为博弈,并推导出均衡点。最后使用强化学习方法不断尝试不同的位置扰动策略,输出一个最优的位置扰动方案。实验结果表明该机制能在优化任务分配效用的同时,尽可能提高用户的整体效用,使用户与平台达成双赢。本方法解决了在MCS系统需要为用户提供个性化隐私保护,以吸引更多用户参与任务的过程中,由于恶意攻击者的存在,用户提升隐私保护力度会导致位置可用性变差,任务分配效用降低的问题。
Description
技术领域
本技术方案属于网络技术领域,具体是一种移动群智感知MCS中(用户)位置隐私保护与平台任务分配的双赢的博弈方法。
背景技术
近年来,物联网技术的蓬勃发展极大促进了移动群智感知(MCS)的流行。一个典型的MCS系统由数据请求者、服务器(MCS平台)以及移动用户组成。服务器将数据请求者的任务分配给MCS系统中的移动用户,移动用户使用移动智能设备完成数据采集发送回服务器并获取一定的报酬。
任务分配是MCS系统中最重要的环节之一。目标是在完成目标感知区域的所有(或大部分)任务的同时,优化整个系统的效用。最小化旅行距离通常被选作MCS任务分配的优化目标。然而,旅行距离的计算离不开用户的位置信息,如果向MCS平台传送真实的位置,用户将面临个人隐私泄露的风险。因此,为了吸引更多的用户参与感知任务,MCS系统必须为用户提供位置隐私保护。
传统位置隐私保护技术中的空间伪装技术,也可用于MCS任务分配中的用户位置隐私保护。如果MCS系统中的恶意攻击者拥有一定的先验知识,那么这种技术提供的隐私保护级别就很容易被降低。在不考虑对手先验知识的情况下,可以使用差分隐私技术为用户提供有力的位置隐私保护。此外,考虑到不同的用户对于隐私保护的需求不同,MCS系统需要为用户提供可供选择的多种不同隐私预算的隐私保护。
旅行距离是衡量MCS任务分配代价的一个重要指标。有研究者提出了一个考虑时间敏感性的任务分配框架ActiveCrowd,以最小化移动的总距离为目标,解决MCS中多任务的用户选择问题。由于MCS平台预知所有用户的真实位置,这可能会泄露用户位置隐私,降低用户参与感知的意愿。也有研究者使用LBS中传统的空间伪装技术保护任务分配中用户的位置隐私。还有研究者提出了基于差分隐私和地理定位的空间众包机制,在为用户提供隐私预算相同的位置隐私保护的同时对外提供高效的服务。一些研究者通过差分隐私技术,模糊用户位置,在任务分配过程中给所有用户提供力度相同的位置隐私保护。然而,该框架难以适应用户差异化隐私保护需求。考虑到用户个性化隐私保护需求,还有研究者提出了个性化的隐私保护任务分配框架,使用K-匿名的思想,允许用户指定自己的隐私预算,从而给用户提供个性化位置隐私保护。由于用户选择隐私预算的随意性强,尤其是当MCS系统中存在恶意攻击者时,用户选择隐私保护力度更大的隐私预算将导致用户位置可用性降低,不利于MCS平台分配任务。
发明内容
由上述现有技术的讨论,可知,在设计提供个性化隐私保护的任务分配框架过程中,除了需要保证MCS平台高效地分配任务外,还要为用户提供力度更合适的位置隐私保护。
博弈论是一种解决MCS系统性能权衡问题的有效途径,如在MCS激励机制的相关研究中,博弈论被用作提供诸如拍卖、定价和基于信誉的机制之类的方法,以激励用户参与MCS感知。可信第三方(TTP)是机制中最为重要的一部分。TTP不仅要给用户提供位置隐私保护,还要模拟用户选择隐私预算和MCS平台分配任务的交互,为用户制定最合适的个性化隐私保护。
移动群智感知MCS系统需要为用户提供个性化隐私保护,以吸引更多用户参与任务。然而,由于恶意攻击者的存在,用户提升隐私保护力度会导致位置可用性变差,降低任务分配效用。
本发明提出一种移动群智感知中位置隐私保护与平台任务分配的博弈方法,本博弈方法是基于强化学习的用户与平台共赢的博弈方法,其步骤包括:
首先通过可信第三方TTP模拟用户和MCS平台的交互:每个用户选择隐私预算给位置添加噪声,MCS平台根据每个用户的扰动位置分配任务;
然后将上述交互过程建模为博弈,并推导出均衡点;
最后使用强化学习方法不断尝试不同的位置扰动策略,输出一个最优的位置扰动方案。
本发明的用户位置隐私保护与平台任务分配双赢的博弈方法,使用强化学习算法,通过不断尝试所有用户的位置扰动方案组合,训练出一个可以输出最优位置扰动策略的离线模型。实验结果表明本发明的隐私预算任务分配博弈可以在提供个性化隐私保护的MCS系统中,为用户制定个性化且最合适的位置隐私保护,使得在保证任务分配效用的同时,尽可能提高用户的隐私保护力度,达成用户与平台双赢的局面。
附图说明
图1是MCS系统整体框架;
图2是可信第三方TTP中的隐私预算-任务分配博弈示意图;
图3是基于强化学习的决策框架;
图4a和图4b是本发明算法与随机算法的性能对比示意图;
其中:图4a是用户整体效用,图4b是任务分配效用;
图5a和图5b是用户数的影响示意图;
其中:图5a是用户整体效用,图5b是平均旅行距离;
图6a和图6b是任务发布半径的影响示意图;
其中:图6a是用户整体效用,图6b是平均旅行距离。
具体实施方式
下面结合附图与具体实施方式对本技术方案进一步说明:1方案总述
移动群智感知MCS系统需要为用户提供个性化隐私保护,以吸引更多用户参与任务。然而,由于恶意攻击者的存在,用户提升隐私保护力度会导致位置可用性变差,降低任务分配效用。
针对该问题,本发明提出的博弈方法首先通过可信第三方模拟用户和平台的交互:每个用户选择隐私预算给位置添加噪声,平台根据每个用户的扰动位置分配任务。然后将交互过程建模为博弈,并推导出均衡点。最后使用强化学习方法不断尝试不同的位置扰动策略,输出一个最优的位置扰动方案。实验结果表明该机制能在优化任务分配效用的同时,尽可能提高用户的整体效用,使用户与平台达成双赢。本方法解决了在MCS系统需要为用户提供个性化隐私保护,以吸引更多用户参与任务的过程中,由于恶意攻击者的存在,用户提升隐私保护力度会导致位置可用性变差,任务分配效用降低的问题。
本博弈方法身在移动群智感知MCS系统中,在收到任务请求后,MCS平台发布任务;有意愿执行任务的提供位置信息给MCS平台;MCS平台选择用户并分配任务,其特征是由可信第三方TTP模拟用户和MCS平台的交互;步骤包括:1)对于MCS平台发布的任务,有意愿执行任务的用户将到所申请任务的真实距离和隐私预算传给TTP;2)在TTP中模拟用户和MCS平台的交互过程,并得到用户最优的扰动位置;3)MCS平台根据来自TTP的用户最优的扰动位置来选择用户分配任务;
所述步骤2)中用斯坦科尔伯格博弈模拟用户与MCS平台间的交互过程,用领导者用户整体作为斯坦科尔伯格博弈模型中的领导者,MCS平台作为模型中的跟随者;领导者和跟随交互过程的步骤为:
2.1)领导者选择隐私预算,并向跟随者传达其位置的扰动策略;
2.2)跟随者根据领导者的扰动策略,以最小化旅行距离为其分配任务;
2.3)在收到跟随者的任务分配结果后,领导者调整扰动策略,向跟随者传达其新的位置的扰动策略,重复执行步骤2.2)直到均衡点后结束循环,得到最优的位置扰动策略;在均衡点下,保证任务分配效用的同时最大化领导者效用的最优状态;
2.4)由均衡点时的最优的位置扰动策略得到用户最优的扰动位置,再进入步骤3)处理。
所述步骤2.2)和2.3)中,使用强化学习方法不断尝试不同的位置扰动策略,最后得到最优的位置扰动策略。
首先,用马尔科夫决策过程表示得到最优扰动策略的过程:然后,采用Q-learning算法求解马尔科夫决策过程,求从初始状态s(1)出发使得累计回报值最大化收敛的最终执行动作;
以下:
第2部分介绍本发明的系统模型;
第3部分对提出的博弈机制进行问题建模;
第4部分将决策问题MDP化,并使用Q-learning算法求解;
第5部分是算法性能对比与实验结果分析。
2系统模型
如图1所示,MCS系统的整体框架包括MCS平台、用户和可信第三方TTP。
系统中的移动用户集合表示为在平台发布任务后,每个用户wi发送一个三元组给可信第三方。其中变量是用户wi所能接受的最大隐私预算(隐私预算越大,隐私保护力度越小,位置隐私泄露的可能性越大),集合 表示用户wi申请的任务集合,向量表示用户wi到ki个任务的真实距离向量。在平台分配任务后,根据分配矩阵An×m到特定的任务位置执行分配给自己的任务。
可信第三方是位置隐私保护的提供者,也是用户最优位置扰动方案的决策者,是本系统中极为重要的一部分。表示可信第三方提供h种不同保护力度的隐私预算集合。在收到用户上传的三元组后,可信第三方为用户wi提供隐私预算εi(即满足用户wi的个性化需求)的位置隐私保护,得到所有用户的位置扰动策略向量π=(ε1,ε2,...,εn),然后模拟平台以最小化旅行距离分配任务,生成分配矩阵An×m,再根据分配矩阵调整用户的位置扰动策略π使得用户效用最大化,然后再进行任务分配,不断迭代,得到最优的位置扰动策略最后,可信第三方将用户wi的任务申请信息上传给真实的系统平台。
假定每个用户可以申请多个任务,每个任务只能分配给一个用户,且一个用户只能执行一个任务。
3问题建模
首先介绍泛化差分隐私的概念,然后分析系统提供的位置隐私保护,接着介绍平台的任务分配方式,最后阐述用户隐私保护-平台任务分配博弈,并推导出博弈的均衡点。
3.1泛化差分隐私
对于任意两个邻近的数据集x,x′和任意输出Y,如果概率分布M(x),M(x′)在Y上最大差异为eε,即M(x)(Y)≤eεM(x′)(Y),那么机制M是满足隐私预算为ε的差分隐私。对于任意两个位置x和x′,如果它们的欧氏距离满足d(x,x′)≤r,那么在模糊机制M下,M(x)和M(x′)的差异不超过εr,ε表示单位距离的隐私预算。在这种情形下,即使恶意攻击者知道了模糊机制M,也无法辨别出真实的位置。
其中M(x)(Y)表示将x属于集合Y的概率。dx=εd(x,x′),其中ε是隐私预算,ε越小,隐私保护的力度越大,d(x,x′)表示x与x′之间的距离。
特别地,当x和y的元素都是一维时,Laplace机制表示变换值y是由初始值x添加相应的噪声产生,即y=x+Lap(1/ε)。此时机制M满足条件为dx=ε|x-y|的差分隐私。
命题1.如果dx≤dx,那么满足dx差分隐私也满足dx差分隐私。
很明显,对于任意一种满足dx差分隐私的机制M,当dx≤dx时,M也满足dx差分隐私。
3.2位置隐私保护
有意愿执行任务的用户需要将到所申请任务的真实距离和隐私预算上传给TTP。TTP根据收到的隐私预算给真实距离添加相应的Laplace噪声,使得攻击者即使知道具体的位置模糊机制也无法推断出用户的真实位置信息,从而保护用户的位置隐私。
由于用户需要上传到申请的任务的真实距离给TTP,TTP最终也会将扰动后的扰动距离上传给MCS平台,所以用户申请的任务数越多,暴露的位置信息就越多,隐私泄露的可能性也相应变大。同时隐私泄露的可能性与隐私预算也有着直接关系。
证明:对于任意的di,dij∈di和dij∈di都表示用户wi到任务tj可能的真实距离,且有|dij-d′ij|≤rj。表示报告给MCS平台的用户wi到任务集合扰动距离向量,即其中η1,η2,...,是服从Laplace(0,1/εi)的ki个独立同分布的随机变量。因此,有
定理1表明:用户的隐私水平与选择的隐私预算和申请的任务有关。隐私预算越小,隐私保护力度越大;申请的任务数量越少,暴露的位置信息越少;申请任务的发布半径越小,处于同一个任务区域的两个真实位置的不可分辨性越大。
3.3任务分配
平台根据可信第三方传来的用户最小隐私预算、申请任务集合和扰动后的距离向量,将每个任务的申请者按照距离任务更近的可能性降序排序。计算出所有任务的申请者降序序列后,将每个任务分配给最近的用户。
假设用户wa和wb是任务tj任意两个申请者,daj和dbj分别表示他们到任务的真实距离。当daj<dbj时,则tj分配给wa的可能更大。换言之,当时,在任务tj的降序排序序列中,用户wa排在用户wb的前面。是通过在daj上添加拉普拉斯噪声得到的,由此可以得到
同理可得
其中μa,μb分别是Laplace(0,1/εa),Laplace(0,1/εb)上的变量。所以有
对公式(4)做二重积分求值即可算出用户wa比用户wb距离更近的概率,从而确定wa和wb在任务tj序列中的前后顺序。对任务tj的所有申请者两两比较即可求出一个以到tj距离升序排序的用户序列。对其他任务执行同样计算,则可以计算出一个排序矩阵
行Sj表示任务tj的排序序列,元素sji=k表示申请执行任务tj的用户wk在所有申请者中排在第i位。当i大于tj申请人数时,sji=∞。此时,以最小化整体旅行距离为目标的任务分配问题简化为将每个任务分配给排序矩阵Sn×m每行的第一个用户。但是当同一个用户排在多个任务的相同位次时会产生冲突,即这多个任务都会分配给该用户,此时可以通过0-1整数线性规划并结合公式(4)消除冲突求出最优分配方案。
任务分配的最终结果是生成一个分配矩阵
3.4隐私预算-任务分配博弈
为了给用户提供最合适的隐私保护,TTP需要模拟用户选择扰动策略、模拟平台分配任务以及模拟用户与平台间的交互。这个交互过程被建模为一个斯坦科尔伯格博弈(Stackelberg game):用户整体作为领导者向平台传达整体用户的位置扰动策略;MCS平台作为跟随者根据用户的扰动策略,以最小化旅行距离为目标分配任务;在收到平台的任务分配结果后,用户调整整体的扰动策略使得整体效用最大化,以此不断交互。
博弈双方分别为TTP中的两个虚拟实体:领导者和跟随者。领导者模拟用户选择扰动策略,跟随者模拟平台分配任务。如图2所示,领导者首先为用户wi选择一个隐私预算εi,提供满足隐私预算εi的保护机制M,将用户整体保护策略记作π,机制M(di,εi)通过公式
将用户M(di,εi)上传的到所申请任务的真实距离向量di扰动为向量领导者将当前策略π上传给平台。跟随者根据收到的π,以最小化旅行距离为目标分配任务,得到一个任务分配矩阵An×m。aij是矩阵An×m的元素,取值为0或1。aij取值1表示任务tj分配给用户wi,取值0则说明任务tj没有分配给用户wi。
在平台任务分配完毕后,用户wi的效用函数期望为
其中,λi是用户wi的隐私权重系数,表示用户在位置隐私保护和被分配任务之间的倾向力度,λi>1表示更倾向于保护位置隐私。表示可信第三方在提供隐私预算εi的差分隐私保护后,用户wi模糊距离向量与真实距离向量之间的距离期望为
用户整体的效用函数期望可表示为
平台效用函数表示为
对于理性的用户来说,都要尽可能地最大化个人效用。也就是在被分配任务后,会尝试增大隐私保护力度,更好地保护隐私。如果没有被分配任务,则会尝试减小隐私保护力度,让自己更有机会被选中,进而提高个人效用。所以在跟随者每次模拟任务分配后,领导者都会根据当前的分配矩阵调整所有用户的隐私保护策略,使得用户整体效用期望最大。跟随者又会根据调整后的隐私保护策略以最小化旅行距离重新分配任务。领导者和跟随者通过不断交互,最终达到一个均衡点,即
这个均衡点是就是在优化任务分配效用的同时最大化用户整体效用的最优状态点。此时,用户根据当前任务分配结果选择出的最优的扰动策略就是当前的策略,平台根据当前用户的扰动策略进行任务分配的最优的结果就是当前的任务分配结果。
由于策略π的选择空间为所以遍历的时间复杂度为O(hm)。任务分配的时间复杂度近似为O(n2);整体的时间复杂度约为O(hmn2)。由于系统中用户数m往往很大,导致时间复杂度太高,暴力穷举法显然不是求解该问题的最佳方法。
4基于强化学习的位置扰动决策
强化学习适用于解决智能体在与环境交互过程中最大化回报值的问题,常见的模型是标准的马尔科夫决策过程(Markov Decision Process,MDP)。因此,本发明采用强化学习的方法解决高效任务分配下最大化用户效用的扰动策略决策问题。本节先介绍了位置扰动策略决策问题的MDP化,随后介绍了求解最优扰动策略的Q-learning算法。
4.1决策的MDP化
马尔科夫决策过程是一种序列决策模型,用于在系统状态具有马尔科夫性的环境中模拟智能体执行动作并获取回报。它通常表示为一个五元组<S,A,P,R,γ>,其中S表示系统状态,A表示智能体的动作,P表示系统状态间的转移函数,R表示回报,γ表示折扣因子。
可信第三方为用户选择最优扰动策略的过程可以看作一个马尔科夫过程。智能体为可信第三方中的领导者,环境为领导者和跟随者的交互过程。下面详细介绍位置扰动策略决策问题的MDP五元素:
系统状态由扰动策略向量π和任务分配矩阵A组成。初始状态s(1)=[π(0),A(0)],其中π(0)表示每个用户的隐私预算为上传给可信第三方的初始值,即用户所能接受的最小的隐私保护力度。
在时刻t,系统状态s(t)在采取动作π(t)后到达状态s(t+1)。因为状态由扰动策略和任务分配矩阵组成,且任务分配矩阵依赖扰动策略,所以下一时刻状态是由当前状态和当前动作决定,满足
P(s(t+1)|s(1),π(1),s(2),π(2),...,s(t),π(t))=P(s(t+1)|s(t),π(t)) (14)
即状态转移具有马尔科夫性。
回报R表示当前状态下执行相应动作的奖励。使用公式(10)作为回报值计算公式,即在状态s(t)采取动作π(t)后,回报值等于此时用户整体的效用值。
折扣因子γ,0≤γ≤1,表示将来回报和当前回报的重要程度,γ=0意味着只看当前奖励,γ=1则表示将来奖励与当前奖励同样重要。
由于状态空间和动作空间都是有限的,所以扰动决策问题是有限的马尔科夫决策过程。将扰动决策转化为MDP后,隐私保护任务分配博弈中最优扰动选择问题转化为:求从初始状态s(1)出发使得累计回报值最大化收敛的最终执行动作。
4.2基于Q-learning的位置扰动决策算法
Q-learning算法是一种有效的求解马尔科夫决策过程的无监督强化学习算法。智能体通过在不同的环境中不断地试错学习,找到最佳的策略达到回报值的最大化收敛。
在Q-learning算法中,智能体要创建一个决策矩阵Q,其中行表示状态,列表示动作,用来存储状态-动作对(s,π)的值,并初始化为零矩阵。Q矩阵通过如下贝尔曼方程(Bellman Equation)迭代更新:
Q(s,π)←(1-α)Q(s,π)+α(uw(s,π)+γV(s')), (15)
其中α∈(0,1)表示学习率,取值越大,表示保留之前训练的结果越少;uw(s,π)表示状态s下执行动作π的回报值;s′表示在状态s执行动作π后的下一状态;γ是折扣因子,且有0≤γ≤1,表示将来奖励和当前奖励对动作值函数(Q函数)的影响,γ=0意味着动作值函数只和当前奖励相关,γ=1意味着将来奖励与当前奖励对动作值函数同样重要;函数V(·)表示Q矩阵下一状态中的最大值。
基于Q-learning的扰动方案决策算法描述如下所示:
输出:π
开始
步骤2.for k←1to episode do
步骤3.s(k)=[A(k-1),π(k-1)]
步骤5.执行动作π,上传扰动后的用户位置给跟随者
步骤6.跟随者分配任务,生成分配矩阵A(k)
步骤7.for i←1to m do
步骤8.用户wi根据公式(9)计算效用
步骤9.end for
步骤10.根据公式(10)计算uw(s(k),π(k))
步骤11.根据公式(15)更新Q(s(k),π(k))
步骤12.根据公式(16)更新V(s(k))
步骤13.end for
步骤14.returnπ*
结束
步骤1中,对算法中用到的学习率α和折扣因子γ进行初始化,将决策矩阵Q初始化为零矩阵,任务分配矩阵初始化为零矩阵。
步骤2-13是一个循环体,episode表示训练最大迭代次数。步骤4在第一次循环时,领导者以用户上传的隐私预算初始值为隐私水平提供隐私保护。第二次循环及以后,领导者会使用e-greedy算法选择扰动方案,以1-e的概率利用之前训练的最优扰动策略,以e的概率随机选择扰动策略,避免局部最优。步骤5-6中,跟随者根据收到的用户隐私预算、扰动位置以及申请任务集合分配任务,并生成分配矩阵。步骤7-9是根据当前的分配矩阵计算每个用户的效用。步骤10中,根据每个用户的效用,计算整体的效用,也就是计算当前状态s(k)下采取动作π(k)的奖励。步骤11-12是更新决策矩阵Q中状态-动作对的值。
步骤14是输出达到收敛或者循环次数结束时的位置扰动策略π*。
该算法共循环执行episode次,在每一次循环迭代中,领导者都可以通过Q表以O(1)的时间复杂度获取当前最优的位置扰动方案策略π。跟随者分配任务的时间复杂度为O(n2)。计算所有用户效用的时间为O(m)。综上所述,本发明提出的基于Q-learning的位置扰动决策算法的时间复杂度为O(episode×max(m,n2))。
5实验与结果分析
通过仿真实验评估了隐私预算-任务分配博弈机制的性能。下面介绍具体实验环境参数,并分析实验结果。
表1列出了实验中基本参数的取值设置。在5km×5km的感知环境区域中,有10个用户参与任务的感知,平台中有5个感知任务待分配,且每个任务的发布半径为1km。每个用户选择一个自己所能接受的最大隐私预算,假设每个用户的初始隐私预算均为5,然后在算法迭代中为每个用户选择出最合适的隐私预算。每个用户的隐私权重系数λi服从均值为1方差为5的正太分布。这是因为对于用户整体来说,位置隐私保护和被分配任务同样重要。Q-learning中的学习率、折扣因子和贪心策略系数分别设为0.2,0.7和0.8。
表1实验环境参数设置
Table 1 Experimental parameters
5.1 Q-learning算法性能评价
用为用户随机选择扰动策略的随机算法作为Baseline与本发明的Q-learning算法对照。
图4a和图4b分别从用户整体效用和任务分配效用两个不同方面对本发明所用的Q-learning算法和随机算法的性能进行了对比。实验图表明无论是用户整体效用还是任务分配效用,Q-learning算法的性能都明显优于随机算法。随机算法由于在每次迭代过程中为每个用户随机地选择隐私预算,导致每次任务分配的结果不一致,用户效用和任务分配效用期望上下波动,无法收敛。图4a表明Q-learning算法中用户整体效用呈先增长后平稳的趋势。这是因为Q-learning算法刚启动时,默认选择每个用户上传的隐私保护力度最小的初始隐私预算,导致被分配任务的用户效用期望低。随着迭代次数的增加,算法不断为用户选择更合适的隐私预算,增大用户整体的效用期望。同样,图4b中,由于初始时用户的隐私保护力度小,在分配任务阶段,用户位置的可用性高,所以任务分配的结果更接近于最优值。随着用户效用期望的增加,用户隐私保护力度变大,位置可用性降低,导致旅行距离期望小幅度增大,任务分配效用略微降低。从实验结果看,本发明提出的机制能够在优化任务分配效用的同时,更好地保护用户的位置隐私,提高用户的整体效用,达到用户与平台双赢的局面。
5.2用户数对系统性能的影响
移动用户是MCS系统中必不可少的一部分,它的数量是衡量系统的性能的重要因素。图5a和5b展示了在任务数为5,任务发布半径为1km的MCS系统中,用户数对系统性能的影响。从图5b可以看出,随着用户数的增加,No-privacy和本发明提出的Q-learning算法的平均旅行距离都在变小。这是因为用户数的增加会导致距离任务更近的新候选者出现。当任务被分配给新候选者时,平均旅行距离将明显减小,从而提高整体任务分配效用。同时,由于距离任务更远的候选者出现,采用随机选择的Baseline的平均旅行距离会有增大的可能。由于任务数固定,且距离任务近的用户可以选择更强的保护方案,所以被分配任务的用户的效用不会随着用户总数的变化而产生较大波动。实验结果表明用户数量增加会有效减小平均旅行距离,接近于无隐私保护的最优值,明显提高任务分配的效用。
5.3任务发布半径对系统性能的影响
任务的发布半径也影响着系统的性能,发布半径太小,可能导致任务发布范围内没有用户,任务无法被分配执行。图6a和图6b展示了在用户数为10,任务数为5的MCS系统中,任务发布半径对系统性能的影响。从图6a和图6b可以看出,在发布半径小于1km时,随着任务发布半径的增大,用户的整体效用和平均旅行距离都在变大。这是因为原本区域内没有用户的任务会随着发布半径的增大而被申请和成功分配。当半径大于1km时,用户整体效用和平均旅行距离都趋于平稳。一方面的原因是所有的任务都已分配,不会再有新用户被分配任务。另一方面,此时任务分配的矩阵不会因为发布半径的增大而变化。
实验结果表明本发明的算法能够在提供个性化隐私保护的MCS系统中,在保证任务分配效用的同时,提高用户整体的效用。同时,在任务发布半径较大、参与感知任务用户数较多的MCS系统中,效果更优。
6结束语
本发明提出了一种移动群智感知MCS中的用户位置隐私保护与平台任务分配的双赢博弈机制,并通过强化学习手段求解出均衡点。其核心思想是:为用户提供个性化位置隐私保护以吸引更多的用户参与MCS感知任务;通过博弈在优化平台任务分配效用的同时尽可能提高用户整体的效用。实验结果表明,本发明提出的博弈机制能够很好地解决任务分配和保护用户位置隐私的平衡问题,并且在任务发布半径大、用户数多的系统中效果更好。
Claims (2)
1.一种移动群智感知中位置隐私保护与平台任务分配的博弈方法,在移动群智感知系统MCS中,在收到任务请求后,MCS平台发布任务;有意愿执行任务的用户提供位置信息给MCS平台;MCS平台选择用户并分配任务,其特征是由可信第三方TTP模拟用户和MCS平台的交互;步骤包括:1)对于MCS平台发布的任务,有意愿执行任务的用户将到所申请任务的真实距离和隐私预算传给TTP;2)在TTP中模拟用户和MCS平台的交互过程,并得到用户最优的扰动位置;3)MCS平台根据来自TTP的用户最优的扰动位置来选择用户分配任务;
所述步骤2)中用斯坦科尔伯格博弈模拟用户与MCS平台间的交互过程,用领导者用户整体作为斯坦科尔伯格博弈模型中的领导者,MCS平台作为模型中的跟随者;领导者和跟随交互过程的步骤为:
2.1)领导者选择隐私预算,并向跟随者传达其位置的扰动策略;
2.2)跟随者根据领导者的扰动策略,以最小化旅行距离为其分配任务;
2.3)在收到跟随者的任务分配结果后,领导者调整扰动策略,向跟随者传达其新的位置的扰动策略,重复执行步骤2.2)直到均衡点后结束循环,得到最优的位置扰动策略;在均衡点下,保证任务分配效用的同时最大化领导者效用的最优状态;
2.4)由均衡点时的最优的位置扰动策略得到用户最优的扰动位置,再进入步骤3)处理。
2.根据权利要求1所述的移动群智感知中位置隐私保护与平台任务分配的博弈方法,其特征是所述步骤2.2)和2.3)中,使用强化学习方法不断尝试不同的位置扰动策略,最后得到最优的位置扰动策略;
首先,用马尔科夫决策过程表示得到最优扰动策略的过程:
马尔科夫决策过程中,智能体作为领导者,环境作为领导者和跟随者的交互过程;马尔科夫决策过程的五个元素为:
元素1:t时刻下,系统状态s(t)由位置扰动策略π(t-1)和任务分配矩阵A(t-1)组成;
初始状态为s(1)=[π(0),A(0)],其中π(0)表示:每个用户的隐私预算是传给TTP的初始值,即用户所能接受的最小的隐私保护力度;
元素3:在时刻t,系统状态s(t)在采取动作π(t)后到达状态s(t+1);系统状态由位置扰动策略和任务分配矩阵组成,且任务分配矩阵依赖扰动策略,则下一时刻状态是由当前状态和当前动作决定,P(s(t+1)|s(1),π(1),s(2),π(2),..,s(t),π(t))=P(s(t+1)|s(t),π(t)),即状态转移具有马尔科夫性;
元素4:回报R表示当前状态下执行相应动作的奖励;在状态s(t)采取动作π(t)后,回报值等于此时用户整体的效用值;
元素5:折扣因子γ,0≤γ≤1,表示将来回报和当前回报的重要程度,γ=0表示只看当前奖励,γ=1则表示将来奖励与当前奖励同样重要;
由于状态空间和动作空间都是有限的,则位置扰动决策问题是有限的马尔科夫决策过程;
然后,采用Q-learning算法求解马尔科夫决策过程,求从初始状态s(1)出发使得累计回报值最大化收敛的最终执行动作;
在Q-learning算法中,由智能体创建决策矩阵Q,其中行表示状态,列表示动作,用来存储状态-动作对的值;
初始化:对算法中用到的学习率α和折扣因子γ进行初始化,将决策矩阵Q初始化为零矩阵,任务分配矩阵初始化为零矩阵;
接着,执行动作π,上传扰动后的用户位置给跟随者;跟随者根据收到的隐私预算、扰动位置以及申请任务集合分配任务,并生成分配矩阵A(k);
根据当前的分配矩阵计算每个用户的效用;
然后,根据每个用户的效用,计算整体的效用,即计算当前状态s(k)下采取动作π(k)的奖励;
通过贝尔曼方程迭代更新Q矩阵中状态-动作对的值;
重复上述过程;使得累计回报值最大化收敛的最终执行动作;
输出达到收敛或者循环次数结束时的位置扰动策略π*。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010629965.2A CN111770454B (zh) | 2020-07-03 | 2020-07-03 | 移动群智感知中位置隐私保护与平台任务分配的博弈方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010629965.2A CN111770454B (zh) | 2020-07-03 | 2020-07-03 | 移动群智感知中位置隐私保护与平台任务分配的博弈方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111770454A CN111770454A (zh) | 2020-10-13 |
CN111770454B true CN111770454B (zh) | 2021-06-01 |
Family
ID=72723507
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010629965.2A Active CN111770454B (zh) | 2020-07-03 | 2020-07-03 | 移动群智感知中位置隐私保护与平台任务分配的博弈方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111770454B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112288478A (zh) * | 2020-10-28 | 2021-01-29 | 中山大学 | 一种基于强化学习的边缘计算服务激励方法 |
CN112543420B (zh) * | 2020-11-03 | 2024-04-16 | 深圳前海微众银行股份有限公司 | 任务处理方法、装置及服务器 |
CN112967118B (zh) * | 2021-02-03 | 2023-06-20 | 华南理工大学 | 移动群智感知激励方法、装置、系统及存储介质 |
CN112866993B (zh) * | 2021-02-06 | 2022-10-21 | 北京信息科技大学 | 一种时序位置发布方法及系统 |
CN113377655B (zh) * | 2021-06-16 | 2023-06-20 | 南京大学 | 一种基于MAS-Q-Learing的任务分配方法 |
CN114254722B (zh) * | 2021-11-17 | 2022-12-06 | 中国人民解放军军事科学院国防科技创新研究院 | 一种面向博弈对抗的多智能模型融合方法 |
CN114415735B (zh) * | 2022-03-31 | 2022-06-14 | 天津大学 | 面向动态环境的多无人机分布式智能任务分配方法 |
CN116744289B (zh) * | 2023-06-02 | 2024-02-09 | 中国矿业大学 | 面向3d空间移动群智感知应用的智能位置隐私保护方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103533078B (zh) * | 2013-10-24 | 2017-07-21 | 无锡赛思汇智科技有限公司 | 一种生成地图的方法及系统 |
CN103761485B (zh) * | 2014-01-13 | 2017-01-11 | 清华大学 | 一种隐私保护方法 |
CN105407482B (zh) * | 2015-11-04 | 2019-01-22 | 上海交通大学 | 移动群智感知网络中用户位置隐私的保护方法 |
CN105528248B (zh) * | 2015-12-04 | 2019-04-30 | 北京邮电大学 | 多任务合作应用下的群智感知激励机制 |
US10111031B2 (en) * | 2016-01-22 | 2018-10-23 | The United States Of America As Represented By The Secretary Of The Air Force | Object detection and tracking system |
CN108200610B (zh) * | 2018-02-26 | 2021-10-22 | 重庆邮电大学 | 采取分布式博弈的群智感知资源分配方法 |
CN108668253A (zh) * | 2018-04-09 | 2018-10-16 | 南京邮电大学 | 一种基于演化博弈的群智合作感知激励方法 |
CN109214205B (zh) * | 2018-08-01 | 2021-07-02 | 安徽师范大学 | 一种群智感知中基于k-匿名的位置及数据隐私保护方法 |
CN110390560A (zh) * | 2019-06-28 | 2019-10-29 | 浙江师范大学 | 一种基于Stackelberg博弈的移动群智感知多任务定价方法 |
-
2020
- 2020-07-03 CN CN202010629965.2A patent/CN111770454B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111770454A (zh) | 2020-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111770454B (zh) | 移动群智感知中位置隐私保护与平台任务分配的博弈方法 | |
CN111754000B (zh) | 质量感知的边缘智能联邦学习方法及系统 | |
Wang et al. | Dependent task offloading for edge computing based on deep reinforcement learning | |
CN113434212B (zh) | 基于元强化学习的缓存辅助任务协作卸载与资源分配方法 | |
Kaur et al. | A novel multi-objective bacteria foraging optimization algorithm (MOBFOA) for multi-objective scheduling | |
CN111866954B (zh) | 一种基于联邦学习的用户选择和资源分配方法 | |
CN110458663B (zh) | 一种车辆推荐方法、装置、设备及存储介质 | |
Kaur et al. | Deep‐Q learning‐based heterogeneous earliest finish time scheduling algorithm for scientific workflows in cloud | |
CN112052071B (zh) | 强化学习和机器学习相结合的云软件服务资源分配方法 | |
CN110009233B (zh) | 群智感知中基于博弈论的任务分配方法 | |
CN109308246A (zh) | 系统参数的优化方法、装置及设备、可读介质 | |
CN112905013B (zh) | 智能体控制方法、装置、计算机设备和存储介质 | |
CN113778691B (zh) | 一种任务迁移决策的方法、装置及系统 | |
Wang et al. | Joint service caching, resource allocation and computation offloading in three-tier cooperative mobile edge computing system | |
CN112685138A (zh) | 云环境下基于多种群混合智能优化的多工作流调度方法 | |
Chen et al. | A novel marine predators algorithm with adaptive update strategy | |
Chen et al. | A pricing approach toward incentive mechanisms for participant mobile crowdsensing in edge computing | |
Li et al. | Batch jobs load balancing scheduling in cloud computing using distributional reinforcement learning | |
Alexandrescu et al. | A genetic algorithm for mapping tasks in heterogeneous computing systems | |
CN110743164B (zh) | 一种用于降低云游戏中响应延迟的动态资源划分方法 | |
Mouli et al. | Making the most of preference feedback by modeling feature dependencies | |
CN114942799A (zh) | 云边环境下基于强化学习的工作流调度方法 | |
CN118093102B (zh) | 一种群智感知中的资源分配方法 | |
Kelly et al. | Efficient advert assignment | |
Xu et al. | Joint Optimization of Task Offloading and Resource Allocation for Edge Video Analytics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |