CN116744289A

CN116744289A - 面向3d空间移动群智感知应用的智能位置隐私保护方法

Info

Publication number: CN116744289A
Application number: CN202310653705.2A
Authority: CN
Inventors: 闵明慧; 王晨; 张慧霞; 杨俊龙; 朱浩鹏; 李世银
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2023-06-02
Filing date: 2023-06-02
Publication date: 2023-09-12
Anticipated expiration: 2043-06-02
Also published as: CN116744289B

Abstract

本发明提出一种面向3D空间移动群智感知应用的智能位置隐私保护方法，涉及位置服务和信息安全领域。服务器采用基于A3C算法生成移动用户的最优扰动策略，移动用户根据服务器生成的最优扰动策略对真实位置进行扰动使攻击者无法获得用户的真实三维地址；移动用户将扰动位置上传给系统进行任务分配并根据自己电量、产能信息决定是否接受任务；根据反馈结果评估隐私保护水平和服务质量并更新网络梯度，不断优化移动用户的位置保护策略。该方法提高了用户敏感位置数据隐私安全和动态复杂的MCS环境中任务分配率，提高了三维空间位置服务系统下的用户位置隐私安全性能以及MCS的系统效益。

Description

面向3D空间移动群智感知应用的智能位置隐私保护方法

技术领域

本发明涉及一种面向3D空间移动群智感知应用的智能位置隐私保护方法，属于通信技术领域。

背景技术

随着通信技术的不断发展，越来越多可移动的传感设备逐渐取代了传统的环境信息采集中固定设备，成为交通监测、灾后救援等领域中灵活部署、移动性可控特点的理想选择，例如无人机(UAV)和携带感知设备的移动车辆等(在后文统称为移动用户)。未来，移动感知设备辅助的群智感知(MCS)将在协助现有MCS基础设施方面发挥重要作用，比如通过自主收集数据，移动用户可以更加高效地完成一些传统固定感知设施难以完成的MCS任务，例如洪水危险区或核污染区的数据收集。不过，这些移动用户执行MCS任务带来了便捷性和高效性的同时也暴露出一些问题，例如隐私和效用问题。

群智感知是一种新兴的数据获取方式。相比于传统的传感技术需要部署大量静态传感器作为传感基础设施，MCS利用大量单独的移动设备来感知、收集和分析需要的数据。在MCS系统上，服务器(平台)通过不同的激励手段吸引移动用户参与任务，再对移动用户进行任务分配。相较于传统的传感技术不需要冗余部署大量传感器节点，MCS系统为大规模传感任务提供了一种成本更低、更加高效的解决方案。

由于不同任务中使用的移动用户具有不同的传感器及其他硬件设备，而MCS平台的任务任务分配主要取决于任务点和移动用户之间的距离。从移动用户到任务位置的距离越长，任务的成本就越低，总的效益也越大；距离越短，移动用户就越有可能被分配任务，并且服务器需要支付的激励也更少。然而，在对移动用户的位置进行扰动后，服务器的分配精度必然会受到影响，移动用户执行任务的总距离也会相应增加。此外，移动用户的机载电池容量限制了其续航能力和性能。如果扰动后位置与实际位置之间差距过大，导致服务器的任务分配结果过于不合理，而移动用户电量又无法支持其完成任务，则会拒绝本次任务，从而大大降低MCS平台的效率。因此，如何权衡隐私水平和任务成本之间的关系成为一大挑战。

目前大多位置隐私保护方案如隐身、mix-zone、加密和扰动等方法虽然能对位置隐私能进行有效保护，但这些方法大都侧重二维空间位置隐私保护，未考虑对用户位置高度信息的保护，缺乏对三维空间位置隐私保护的严格度量和隐私保证。而已有的部分三维空间位置隐私保护机制的研究，如K-匿名等，依赖于可信的第三方服务器，一旦服务器瘫痪或者被攻击，则难以保护用户位置隐私。再者，针对MCS情景下任务分配的相关工作，缺乏对移动用户旅行距离和位置隐私保护的考虑，导致其在实际场景中可能不适用；同时，目前现有的这些研究并没有引入强化学习的概念，而现实情况下移动用户所处的动态三维空间环境具有时变性强、攻击者手段复杂多样等特点，以往的研究方式无法适应MCS场景下复杂的任务分配问题。

发明内容

针对现有技术的不足之处，提供一种步骤简单、使用效果好的面向3D空间移动群智感知应用的智能位置隐私保护方法，以适应MCS情景下环境动态多变、攻击者攻击模式难以确定等问题，提高移动用户在MCS系统中位置隐私安全性，并实现了位置隐私和任务成本的权衡，通过并行探索空间中最优的扰动策略，快速实现对移动用户位置隐私保护和任务分配策略的动态优化，为位置隐私保护的研究开辟了新视角。该方法具有步骤简单、使用效果好等优点，为移动用户位置隐私保护领域带来了新的思路和方法。

为实现上述技术目的，本发明的一种面向3D空间移动群智感知应用的智能位置隐私保护方法，使用服务器作为平台、移动用户群组以及任务发布者进行组网，平台具有保护移动用户位置隐私机制，在组网覆盖空间的三维空间内构建MCS系统，形成全局网络和多个移动用户的网络系统；

步骤如下：

步骤1、构建保护用户位置隐私的平台，由于服务器可能会受到攻击者的攻击泄露用户的位置隐私，因此服务器发布MCS感知任务广播时启动位置隐私保护机制；在无线信号传播范围内的移动用户响应广播，向服务器发出请求参与任务；

步骤2、服务器采用基于A3C算法的扰动策略，对移动用户的真实位置进行扰动以保护移动用户的位置隐私，优化MCS场景下移动用户的位置隐私和任务成本：服务器首先初始化MCS系统环境及A3C算法的学习参数，移动用户将自身的电量情况、自身的产能水平、上一时刻的攻击结果以及上一时隙的任务执行情况反馈服务器，其中，移动用户根据给定的攻击者模型进行自我评估得出上一时刻的攻击结果；服务器再将任务的耗电情况与移动用户发来的信息共同将其作为系统状态输入深度神经网络DNNs，通过异步强化学习动态在连续策略空间中寻找最优的扰动策略，加快最优扰动策略的选择，并达到权衡位置隐私和任务成本需求目标；

步骤3、移动用户根据服务器生成的最优扰动策略，基于差分隐私的严格且可证明的三维位置隐私保护度量方法，定义三维空间中的地理不可区分机制，在本地生成扰动位置分布：利用三维拉普拉斯加噪机制，对在半径为R的给定球形区域内的任意位置，通过对位置的X，Y和Z坐标同时进行扰动，实现三维空间地理不可区分性，严格保证差分隐私；

步骤4、移动用户将扰动后的位置分布发送至服务器，服务器接收到的移动用户扰动后位置信息进行任务分配；接收到任务分配的移动用户再根据自己的现有电量能否完成该任务决定是否接受并执行任务；之后执行完任务移动用户会将自己的电量、产能情况以及是否执行任务、攻击结果信息告知服务器，服务评估上一时隙动作，并以最大化MCS系统的效用为目标形成下一时隙的动作实施位置隐私保护。

进一步，基于A3C算法的最优的扰动策略内容如下：

初始化移动用户访问的三维空间地图、扰动策略空间A，其中A为正常数，包括扰动幅度和扰动角度的选择范围，攻击结果初始化A3C算法的学习参数、全局网络中的actor网络参数ψ和critic网络参数ω，以及移动用户工作网络中参数为ψ'和ω'的actor网络和critic网络，将移动用户当前位置敏感度水平、电量情况、能量采集和任务需求作为系统状态参数输入A3C网络，其中A3C网络包括一个全局网络和四个工作网络，当工作网络执行培训并与环境交互时，全局网络存储异步更新的参数，不断优化得到最优位置扰动策略：

步骤2.1、MCS系统包括服务器、移动用户以及任务发布者，设在第k个时隙中，有U个移动用户，U＝{u₁ ^(k)...u_N ^(k)}，每个移动用户的状态通过表示，其中/>表示当前电池电量，/>表示全体响应的移动用户的位置坐标，是所有能够执行任务的用户的位置坐标/>服务器收到任务发布者发布的M个传感任务信息，T＝{t₁ ^(k)...t_M ^(k)}，每个任务的状态表示为其中/>表示执行t_i ^(k)所需的电池电量。/>表示任务的位置坐标l_i ^(k)；

步骤2.2、根据移动用户自身状态确定电量情况e^(k)和产能情况p(^k)结合服务器已知任务能量成本c^(k)形成当前移动用户所处的MCS系统网络状态：其中/>为时隙k的上一次攻击结果；

步骤2.3、在时隙k处，服务器将当前状态s^(k)同时输入到Actor网络和Critic网络中；

Actor网络的输出是扰动策略的分布函数π^(k)，表示如下：

其中表示Actor网络在状态s^(k)下的全局网络参数；

Critic网络的输出是状态值函数V(s(k)；ω')；

服务器以最大化系统效用为原则为每个移动用户选择位置扰动策略a^(k)并发送给移动用户。

进一步，服务器根据最大化系统效用的原则选择每个移动用户的位置扰动策略a^(k)发送给移动用户，其特征在于获得扰动位置的具体方法为：

步骤3.1、在三维空间中用球坐标系替换笛卡尔坐标系来确定扰动位置；用户真实位置为l(^k)，其扰动位置为其中ε为隐私预算，r表示l^(k)和/>间的距离，ω是极角，φ是方位角，在球坐标系中以l(^k)为中心的三变量拉普拉斯的概率密度函数为：

三个变量表示为半径极角Ω，方位角Φ，三个变量的边缘分布分别为：

步骤3.2、球坐标系的三维空间为保护位置隐私的球形区域，在球形区域内选取一个随机向量U＝(ω,φ)，即为伽马分布Γ(3,1/ε)的概率密度函数，根据伽马分布Γ(3,1/ε)确定一个半径r，则扰动位置服从分布/>在笛卡尔坐标系下该扰动位置表示为：

进一步，将扰动位置发送至服务器，服务器根据接收到的移动用户的位置信息分配任务，移动用户首先判断电量是否足够支持完成本次分配的任务，若移动用户电量足够支持完成任务则接受本次任务分配，执行完任务的移动用户将自己状态反馈给服务器，形成下一时隙的系统状态；服务器通过服务器的利润、用户奖励和任务失败成本衡量其净利润Q^(k)，移动用户通过评估他们的位置隐私保护级别P^(k)，并将结果反馈给服务器，服务器基于P^(k)和Q^(k)获得MCS系统效用R^(k),具体方法为：

步骤4.1、在MCS系统中，执行任务的用户将获得奖励；而服务器在任务完成后也会获得利润。将指标函数表示为其中/>表示函数参数中的布尔表达式为真，反之亦然。我们定义，若任务t_j成功执行，令/>否则，如果任务t_j失败则/>更具体地说，假设完成任务G^(k)的服务器利润与任务的能量成本成正比，其比例系数为λ，表达式如下：

执行任务的移动用户将获得奖励奖励与移动用户旅行的能量成本和执行任务的能量成本成正比，比例系数分别为μ和ξ，用户的奖励为：

在MCS任务的执行过程中，任务分配受到用户电池电量的限制，导致一些需要能量过多的任务被分配给移动用户，被分配的移动用户可能没有足够的能量去旅行到指定的任务位置，从而导致任务失败，这种情况下服务器的任务失败的成本为：

其中表示任务失败或未执行，η为常数系数；

因此，服务器的净利润Q^(k)为：

Q^(k)＝G^(k)-C₂ ^(k)-C₃ ^(k),

步骤4.2、定义攻击者的推断位置和实际位置d_i ^(k)之间的距离为移动用户的位置隐私水平，用移动户的位置隐私水平为：

P^(k)代表MCS系统中所有用户的隐私水平，表示实际位置d_i ^(k)和/>之间的欧氏距离。距离越大，位置隐私保护效果越好；

步骤4.3、因此根据隐私水平和服务器净利润，定义MCS系统的奖励函数R(s^(k),a^(k))如下：

R(s^(k),a^(k))＝αP^(k)+βQ^(k)，α+β＝1

其中，α、β为权重因子，根据系统实际需求能够进行调整；P^(k)为用户隐私，Q^(k)为服务器净利润；

在A3C网络中，t步中更新的奖励值影响之前的t个状态-动作对，对相关的状态-动作对的影响更显著，因此，在执行t步骤后，Actor网络和Critic网络参数都会被更新，t步奖励函数描述如下：

其中γ∈(0,1]是折现因子，V(s^(k))测量在当前状态下的好坏；V(s^(k))表示Critic网络输出的状态值函数，γⁱ表示之前步骤中的折现因子，γ^t表示执行完t步骤后的折现因子，ω'表示移动用户网络中的critic网络的参数；

移动用户的位置隐私保护策略生成机制还定义优势函数A^(k)减小对动作估计的误差，表示为:

A(s^(k),a^(k)；ψ',ω')＝R^(k)-V(s^(k)；ω')

式中A^(k)表示优势函数，ψ'表示移动用户网络中的actor网络的参数。

进一步，A3C算法能够异步并行探索各种状态，更新A3C网络中的全局网络权重参数，优化位置扰动策略，具体为：

时隙k根据系统状态，并基于扰动策略π(s^(k),a)和优势函数A(s^(k),a^(k)；ψ′,ω′)更新actor网络梯度如下：

dψ←dψ+▽_ψ′logπ(s^(k),a^(k)；ψ′)A(s^(k),a^(k)；ψ′,ω′)

相似地，更新Critic网络梯度如下：

根据上式不断更新Critic网络梯度从而不断优化位置保护策略；累积的梯度被聚合到Critic全局网络中，以执行网络参数的更新；

由于A3C网络中每个工作网络的计算时间不同，Actor网络和Critic网络被异步更新，全局网络将更新后的参数覆盖到移动用户网络，根据移动用户的电量情况和隐私泄露情况，服务器重复上述步骤，直到学习到最优的位置扰动策略a^(k)。

进一步，所述的A3C神经网络包含卷积层m层和全连接层n层，在m(m≥1)层卷积网络中，第一层卷积层的输入为工人状态s^(k)的重塑方阵；在n(n≥1)层全连接层中最后一层的全连接层输出大小与MCS系统可选择的扰动策略范围一致，即为|A|，卷积神经网络的输出为一个概率分布，从概率分布里边抽样选择扰动策略a^(k)。

有益效果，本发明充分考虑移动用户隐私和MCS系统效益间关系，利用移动用户与攻击者之间的行为博弈交互，不需预知精确的三维空间环境模型和位置推断攻击模型，通过深度强化学习算法使得移动用户可以根据攻击者的攻击反馈动态的调整位置扰动策略，优化动态位置服务系统的位置隐私保护性能和提高MCS系统任务分配率。此外，本发明采用多个线程异步地探索其环境中的最佳扰动策略，这种并行训练可以探索各种状态，以确保训练的稳定性，也避免了经验回放所需的记忆和计算。此外，全局网络参数根据所有线程的训练结果不时异步更新，加快了学习收敛速度。该方法可适应MCS背景下动态三维空间位置下移动用户执行感知任务的位置数据隐私安全性能

附图说明

图1为本发明中基于A3C的三维空间MCS中位置隐私保护方法流程示意图。

图2为本发明中基于A3C的三维空间MCS中位置隐私保护机制示意图。

具体实施方式

下面结合实例进一步描述本发明的技术方案，但要求保护的范围并不局限于所述。

如图1和图2所示，本发明的一种基于A3C的MSC下的位置隐私保护机制，首先研究服务器基于差分隐私的严格、且可证明的三维位置隐私保护度量方法发布位置扰动函数，定义三维空间中的地理不可区分机制，即对于在半径为R的给定球形区域内的任意位置，无论攻击者拥有多少先验知识，其对用户真实位置的推断结果的概率分布相似。设计三维拉普拉斯加噪机制，实现对位置的X，Y和Z坐标同时进行扰动，实现三维空间地理不可区分性，严格保证差分隐私。移动用户基于扰动函数生成扰动后的位置发送至位置服务器，真实的位置只有用户本身知晓。

在上述的技术之下，提出基于异步强化学习的位置隐私保护机制，提高动态三维空间环境下位置隐私保护性能。我们的机制采用异步多线程训练方法，该机制首先初始化系统环境及参数，服务器作为学习代理，负责根据当前的系统状态为所有用户选择扰动策略，包括电池水平、收集的能量和执行每个任务所需的能量成本，并将其作为系统状态输入深度卷积神经网络(DNNs)。使用全局网络和多用户网络和参与者网络和批评网络分别输出扰动策略和评估状态值。异步多线程训练方法可以解决训练深度神经网络的扰动体验序列之间的强相关性。在固定的时间时隙中计算参与者和批评者网络的梯度，并将累积的梯度异步转移到全局网络中以更新网络参数。然后，将更新后的参数覆盖到工人网络中。每个工人网络都是独立训练的，通过深度强化学习算法学习动态选择位置扰动策略来防御位置推断攻击，权衡用户位置隐私和服务器任务分配动态关系，从而更快地选择最优扰动策略，提高了训练效率。其中基于A3C位置保护机制包括以下步骤：

具体实施步骤如下：

步骤1：选择一款支持深度学习计算且有定位功能的移动传感设备，例如手机、无人机等。

步骤2：基于高性能服务器、任务站点和移动传感设备(如手机、无人机等)搭建用户位置隐私保护平台。

步骤3：同时考虑三个维度的位置扰动机制，并设计三维拉普拉斯加噪机制。为了简化三维空间中的MCS应用环境，我们将其划分为27000个区域，30×30×30立方网格，高100米。用户的电池电量为2000≤e^(k)≤6000mAh。收集的能量和执行每个任务的能量消耗(即任务量)/>分别被均匀量化为5个水平和6个水平。收获的能量/>建模为/>任务量/>也被建模为/>

步骤4：根据当前访问位置的特点和敏感性、攻击者的攻击历史情况以及当前位置服务类型，用户基于所提机制选择扰动策略，如隐私预算等。然后，用户将该参数输入步骤2中开发的App，基于该参数设置应用程序产生扰动位置。随后，用户将该扰动位置发送给服务器。基于接收到的用户的位置信息，服务器为移动用户进行任务分配，同时可能包含一些广告推销或者诈骗类信息(该类信息可反应用户位置隐私泄露情况)。

步骤5：用户根据接收到的广告推销和诈骗信息等与其访问位置的相似度，评估其隐私泄露程度且服务器根据移动用户的任务接受率评估服务器的净利润，实现对不同用户需求和不同敏感度的位置进行保护。

其中学习算法包括以下几个步骤：

1)初始化地图、扰动策略空间A、攻击结果设定学习参数和Actor网络权重参数ψ和critic网络参数ω。

2)基于系统环境观察用户当前访问的地理位置d^(k)和电量情况e^(k)和产能情况p^(k)，

3)评估服务器发布任务的能量成本c^(k)。

4)获取当前系统状态：其中/>为时隙k的上一次攻击结果，

5)在时隙k处，服务器将当前状态s^(k)输入到Actor网络和Critic网络中。Actor网络的输出是扰动策略的分布函数π^(k)，如下：：

Critic网络的输出是状态值函数V(s(k)；ω')；服务器根据功能，为每个用户选择位置扰动策略a^(k)，并将其发送给用户。

6)基于扰动策略确定扰动位置：步骤1：用球坐标系替换笛卡尔坐标系来确定扰动位置；用户真实位置为l^(k)，其扰动位置为其中ε为隐私预算，r表示l^(k)和/>之间的距离，ω是极角，φ是方位角，在球坐标系中以l^(k)为中心的三变量拉普拉斯的概率密度函数为：

步骤2、在单位球内选取一个随机向量U＝(ω,φ),即为伽马分布Γ(3,1/ε)的概率密度函数，根据伽马分布Γ(3,1/ε)确定一个半径r，则扰动位置服从分布/>在笛卡尔坐标系下该位置可表示为/>

7)将扰动位置发送至服务器，基于接收到的移动用户的位置信息，服务器进行任务分配，并将任务分配结果发送给用户进行执行，若移动用户电量足够支持完成任务则接受本次任务分配；执行完任务的移动用户将自己状态反馈给服务器，形成下一时隙的系统状态；服务器通过服务器的利润、用户奖励和任务失败成本衡量其净利润Q^(k)，用户通过评估他们的位置隐私保护级别P^(k)，并将结果反馈给服务器，；因此，MCS系统效用基于P^(k)和Q^(k)可以通过获得MCS系统效用R^(k),具体方法为：

步骤1、在MCS系统中，执行任务的用户将获得奖励；而服务器在任务完成后也会获得利润。将指标函数表示为其中/>表示函数参数中的布尔表达式为真，反之亦然。我们定义，若任务t_j成功执行，令/>否则，如果任务t_j失败则/>更具体地说，假设完成任务G(k)的服务器利润与任务的能量成本成正比，其比例系数为λ，表达式如下：

执行任务的用户将获得奖励它与用户旅行的能量成本和执行任务的能量成本成正比，比例系数分别为μ和ξ。用户的奖励为：

在MCS应用中，任务分配受到用户电池电量的限制，这可能导致一些任务在当前时间段内不需要分配过多的能量给用户。此外，根据任务分配，被分配的用户可能没有足够的能量去旅行到指定的任务位置，从而导致任务失败。在这种情况下，服务器的任务失败的成本为：

其中表示任务失败或未执行，η为常数系数。

因此，服务器的净利润Q^(k)计算如下：

Q^(k)＝G^(k)-C₂ ^(k)-C₃ ^(k),

步骤2、定义攻击者的推断位置和实际位置d_i ^(k)之间的距离为用户的位置隐私水平，用户的位置隐私水平为：

P^(k)代表MCS系统中所有用户的隐私水平，表示实际位置d_i ^(k)和/>之间的欧氏距离。距离越大，位置隐私保护效果越好。

步骤3、因此根据隐私水平和服务器净利润，可以得到奖励R(s^(k),a^(k))如下：

R(s^(k),a^(k))＝αP^(k)+βQ^(k)，α+β＝1

其中，α、β为权重因子，可根据系统实际需求调整α，β值；P^(k)为用户隐私，Q^(k)为服务器净利润。

进一步，在RL模型中，t步中更新的奖励值影响之前的t个状态-动作对，对相关的状态-动作对的影响更显著。因此，在执行t步骤后，Actor网络和Critic网络参数都会被更新，奖励函数可以描述如下:

其中γ∈(0,1]是折现因子，V(s^(k))测量在当前状态下的好坏。此外，我们的机制还定义了优势函数来减小估计的误差，可以表示为:

A(s^(k),a^(k)；ψ′,ω′)＝R^(k)-V(s^(k)；ω'),

8)基于π(s^(k),a)和A(s^(k),a^(k)；ψ′,ω′)更新actor网络梯度如下：

相似地，更新critic网络梯度如下：

9)根据式(8)更新网络权重参数。

11)根据用户隐私泄露情况和服务器任务分配情况，重复上述步骤，直到学习到稳定的位置扰动策略。

本发明在基于三维地理位置不可分辨性(3D-GI)的MCS应用中实现3D位置隐私保护的研究，用户可以在本地直接采用，而不需要一个值得信任的第三方。这种机制确保了MCS系统在位置隐私和服务器利润之间保持平衡，从而最大化MCS系统的实用程序。

本发明利用不依赖模型的深度强化学习算法，开发了一种基于A3C的MCS应用三维位置隐私保护机制，在不知道准确的系统模型和攻击模型的情况下，通过试错动态推导出最优扰动策略。该机制可以在连续策略空间中找到最优的扰动策略以动态推导连续策略空间中的最优扰动策略，通过使用异步多线程训练模型来提高性能，从而更好地探索复杂的3D MCS环境的性能。

Claims

1.一种面向3D空间移动群智感知应用的智能位置隐私保护方法，其特征在于：使用服务器作为平台、移动用户群组以及任务发布者进行组网，平台具有保护移动用户位置隐私机制，在组网覆盖空间的三维空间内构建MCS系统，形成全局网络和多个移动用户的网络系统；

步骤如下：

2.根据权利要求1所述的面向3D空间移动群智感知应用的智能位置隐私保护方法，其特征在于，基于A3C算法的最优的扰动策略内容如下：

步骤2.1、MCS系统包括服务器、移动用户以及任务发布者，设在第k个时隙中，有U个移动用户，每个移动用户的状态通过/>表示，其中表示当前电池电量，/>表示全体响应的移动用户的位置坐标，是所有能够执行任务的用户的位置坐标/>服务器收到任务发布者发布的M个传感任务信息，T＝{t₁ ^(k)...t_M ^(k)}，每个任务的状态表示为/>其中表示执行t_i ^(k)所需的电池电量。/>表示任务的位置坐标l_i ^(k)；

步骤2.2、根据移动用户自身状态确定电量情况e^(k)和产能情况p^(k)结合服务器已知任务能量成本c^(k)形成当前移动用户所处的MCS系统网络状态：其中/>为时隙k的上一次攻击结果；

Actor网络的输出是扰动策略的分布函数π^(k)，表示如下：

其中表示Actor网络在状态s^(k)下的全局网络参数；

Critic网络的输出是状态值函数V(s(k)；ω')；

3.根据权利要求2所述的面向3D空间移动群智感知应用的智能位置隐私保护方法，其特征在于，服务器根据最大化系统效用的原则选择每个移动用户的位置扰动策略a^(k)发送给移动用户，其特征在于获得扰动位置的具体方法为：

步骤3.1、在三维空间中用球坐标系替换笛卡尔坐标系来确定扰动位置；用户真实位置为l^(k)，其扰动位置为其中ε为隐私预算，r表示l^(k)和/>间的距离，ω是极角，φ是方位角，在球坐标系中以l(^k)为中心的三变量拉普拉斯的概率密度函数为：

4.根据权利要求3所述的面向3D空间移动群智感知应用的智能位置隐私保护方法，其特征在于，将扰动位置发送至服务器，服务器根据接收到的移动用户的位置信息分配任务，移动用户首先判断电量是否足够支持完成本次分配的任务，若移动用户电量足够支持完成任务则接受本次任务分配，执行完任务的移动用户将自己状态反馈给服务器，形成下一时隙的系统状态；服务器通过服务器的利润、用户奖励和任务失败成本衡量其净利润Q^(k)，移动用户通过评估他们的位置隐私保护级别P^(k)，并将结果反馈给服务器，服务器基于P^(k)和Q^(k)获得MCS系统效用R^(k)，具体步骤如下：

其中表示任务失败或未执行，η为常数系数；

因此，服务器的净利润Q^(k)为：

Q^(k)＝G^(k)-C₂ ^(k)-C₃ ^(k),

R(s^(k),a^(k))＝αP^(k)+βQ^(k)，α+β＝1

A(s^(k),a^(k)；ψ',ω')＝R^(k)-V(s^(k)；ω')

5.根据权利要求4所述面向3D空间移动群智感知应用的智能位置隐私保护方法，其特征在于，A3C算法能够异步并行探索各种状态，更新A3C网络中的全局网络权重参数，优化位置扰动策略，具体为：

相似地，更新Critic网络梯度如下：

6.根据权利要求1所述的基于A3C的三维空间MCS中位置隐私保护方法，其特征在于：A3C神经网络包含卷积层m层和全连接层n层，在m(m≥1)层卷积网络中，第一层卷积层的输入为工人状态s^(k)的重塑方阵；在n(n≥1)层全连接层中最后一层的全连接层输出大小与MCS系统可选择的扰动策略范围一致，即为|A|，卷积神经网络的输出为一个概率分布，从概率分布里边抽样选择扰动策略a^(k)。