CN115913712A

CN115913712A - 基于多用户多接入点的任务卸载隐私保护系统及方法

Info

Publication number: CN115913712A
Application number: CN202211431934.1A
Authority: CN
Inventors: 沈士根; 高正俊; 吴国文; 吴晓平; 张红; 曹奇英
Original assignee: Huzhou University
Current assignee: Huzhou University
Priority date: 2022-11-16
Filing date: 2022-11-16
Publication date: 2023-04-04

Abstract

本发明公开了一种基于多用户多接入点的任务卸载隐私保护系统及方法，应用于移动边缘计算网络；包括设置在可信第三方服务器的训练模块、以及设置在移动设备的反馈模块；所述训练模块，用于根据反馈模块提供的经验数据对决策器进行训练，并将训练收敛的决策器提供给所述反馈模块；所述反馈模块，用于在每个时隙采用所述训练模提供的决策器根据其观察到的当前状态决策向多个可用的边缘节点卸载任务的最优卸载策略。本发明考虑在多接入点的环境中用户由于卸载偏好引起的隐私泄露，制定了基于信息熵的隐私评估指标，并且综合考虑了用户的隐私、能耗、时延、任务丢失作为优化目标，从而在用户隐私和用户体验之间取得平衡。

Description

基于多用户多接入点的任务卸载隐私保护系统及方法

技术领域

本发明属于物联网安全技术领域，更具体地，涉及一种基于多用户多接入点的任务卸载隐私保护系统及方法。

背景技术

随着物联网技术的高速发展和移动设备的普及，便携移动设备嵌入了人脸识别、增强现实等技术，这些技术应用丰富了用户的体验质量。然而，由于移动设备的尺寸限制，它们的计算能力和电量难以满足日益增长的计算需求。在移动边缘计算中，运营商将具有充足的计算资源和存储能力的云计算中心转移到靠近用户的边缘节点。这些边缘节点拥有着不俗的计算资源，可以为移动设备提供计算资源以减少移动设备本地的计算延迟和能力消耗。通常一个区域内包含了多个边缘节点可供卸载，多个移动设备卸载到同一个边缘节点也存在着竞争资源的问题，因此选择一个合适的卸载策略让每个用户都能得到最优的用户体验质量十分重要。

当前，移动设备对不同边缘节点的卸载偏好会暴露用户的实时位置。具体来说，当移动设备只关注延迟和能耗的优化时，由于移动设备为了减少能耗与时延，倾向于将任务卸载到最近的边缘节点进行计算(距离越近，相对应的信道增益也越好)，这种卸载偏好可能导致位置泄露。倘若多个边缘节点联合起来，根据同一个移动设备卸载到每个边缘节点的任务量就可以推测出用户到每个边缘节点的信道情况，从而获得用户的实时位置。

已有的传统隐私保护方案，例如认证、安全和私有数据存储和计算、入侵检测等难以解决上述由于卸载决策暴露的隐私问题。此外，过度追求隐私保护的任务卸载决策也会导致用户的计算延迟和能量消耗的增加，从而影响用户体验质量。所以在移动边缘计算中保护隐私的最大挑战是寻找最佳的卸载策略在用户体验质量和隐私保护之间取得平衡。已有的任务卸载方法有李雅普诺夫优化、线性规划、博弈论等方法，然而这些方法大多考虑环境的瞬时优化，也没有考虑到环境的动态变化。而且，传统方法难以解决维度灾难问题，以及需要先验知识，然而系统状态难以使用某些特定的分布去描述。

发明内容

本发明旨在解决现有移动边缘计算中在多接入点的环境中卸载偏好导致的隐私泄露问题，提出一种基于多用户多接入点的任务卸载隐私保护系统及方法。

为实现上述目的，按照本发明的一个方面，提供了一种基于多用户多接入点的任务卸载隐私保护系统，应用于移动边缘计算网络；所述移动边缘计算网络，包括：用于就近提供移动服务、接受用于任务卸载的多个边缘节点；以及与所述边缘节点进行多对多通信请求任务卸载服务的移动设备；

包括设置在可信第三方服务器的训练模块、以及设置在移动设备的反馈模块；

所述训练模块，用于根据反馈模块提供的经验数据对决策器进行训练，并将训练收敛的决策器提供给所述反馈模块；

所述反馈模块，用于在每个时隙采用所述训练模提供的决策器根据其观察到的当前状态决策向多个可用的边缘节点卸载任务的最优卸载策略，并在执行所述最优卸载策略的相应动作后，评价行动奖励并观察下一时隙的状态，形成包括当前状态、动作和奖励的以及下一时隙状态的局部经验；并用于将一段时间的局部经验提供给所述训练模块。

优选地，所述基于多用户多接入点的任务卸载隐私保护系统，其所述训练模块将多个移动设备的反馈模块提供的局部经验整合为全局经验作为经验数据。

优选地，所述基于多用户多接入点的任务卸载隐私保护系统，其所述决策器为基于马尔可夫的强化学习神经网络，优选为无模型强化学习结构，具体可为DQN强化学习。

优选地，所述基于多用户多接入点的任务卸载隐私保护系统，其移动设备l的决策器：

当前时隙t的状态

其中

为当前时隙t移动设备l所需要卸载的任务，

为当前时隙t移动设备l所在的位置；

当前时隙t的卸载决策

为移动设备l以功率

传输任务量为

的任务到边缘节点m，以及本地计算需要的计算功率

和任务量

记作：

当前时隙t的执行卸载决策

所获得的奖励

为：用户体验质量、以及隐私级别的加权和，按照用户体验质量越高、隐私级别越高奖励值越大的原则确定；其中用户体验质量包括计算时延和任务丢失量两方面，按照计算时延越长、任务丢失量越多用户体验质量越低原则确定用户体验质量。

优选地，所述基于多用户多接入点的任务卸载隐私保护系统，其所述计算时延为本地计算时延和卸载时延中的较大值，所述任务丢失量为在一个时隙中计算没有完成而被丢失的任务的大小；所述隐私级别，根据移动设备l对于各边缘节点的卸载偏好的熵值，按照值越大隐私级别越高的原则确定。

优选地，所述基于多用户多接入点的任务卸载隐私保护系统，其所述设置在可信第三方服务器的训练模块采用，按照如下方法训练决策器：

S1、经验数据收集：所述训练模块收集多个移动设备反馈模块提供的局部经验，并整合为全局经验；所述全局经验为多个移动设备反馈模块提供的局部经验的集合，包括当前时隙t的全局状态

当前时隙t的全局卸载决策

当前时隙t的全局奖励

S2、决策器独立训练：对于每个移动设备，分别独立的以其前时隙t的卸载决策

其他所有移动设备的卸载决策

全局状态S_t、下一时隙t的全局状态S_t+1为样本，采用梯度更新，以使目标函数最大化为目标进行决策器更新，所述目标函数表征该移动设备行动奖励；

优选地，所述基于多用户多接入点的任务卸载隐私保护系统，其采用以强化学习神经网络DQN网络Actor作为决策器，以参数

为网络参数的强化学习神经网络目标函数J(π_l)为：

基于梯度更新Actor网络π_l的参数

上述目标函数的梯度可以表示为：

优选地，所述基于多用户多接入点的任务卸载隐私保护系统，其采用软更新的方式进行更新。

优选地，所述基于多用户多接入点的任务卸载隐私保护系统，其移动设备l状态行为Q函数表示为：

其中，

表示期望值，S_t表示全局观测，

表示除移动设备l以外的移动设备的动作集合，γ是长期奖励的折扣因子；

采用Critic神经网络Q_l来近似移动设备l状态行为Q函数，神经网络对应的网络参数为

通过最小化该移动设备l的损失函数来更新参数

损失函数

定义为：

其中，

表示对于经验池中的样本取

时的数学期望，

优选采用Critic神经网络Q′_l来计算y_l的值。

按照本发明的另一个方面，提供了一种基于多用户多接入点的任务卸载隐私保护方法，应用本发明提供的基于多用户多接入点的任务卸载隐私保护系统，包括以下步骤：

设置在可信第三方服务器的训练模块，为所有移动设备创建或训练决策器；移动设备从第三方服务器下载决策器；

对于任一移动设备l，在时隙t移动设备l需要进行任务卸载时，执行以下步骤：

(1)检测该移动设备当前所在的位置

以及当前时隙所需要卸载的任务

获得当前时隙t的状态

输入决策器，获得卸载决策

所述卸载决策包移动设备l以功率

传输任务量为

的任务到边缘节点m，以及本地计算需要的计算功率

和任务量

(2)移动设备l按照步骤(2)获得的卸载决策

进行任务卸载，并观察下一时隙状态

并评估当前时隙t的执行卸载决策

所获得的奖励

构建一条移动设备l的局部经验数据

经过预设时间段，多个移动设备其反馈模块收集局部经验，提交给所述可信第三方服务器的训练模块，所述训练模块将多个移动设备的局部经验整合为全局经验并据此为所述多个移动设备更新决策器。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

1.本发明考虑在多接入点的环境中用户由于卸载偏好引起的隐私泄露，制定了基于信息熵的隐私评估指标，并且综合考虑了用户的隐私、能耗、时延、任务丢失作为优化目标，从而在用户隐私和用户体验之间取得平衡。

2.本发明使用了多智能体深度强化学习来学习策略，相比于传统的单智能体强化学习，考虑了多个用户之间的博弈以及其他用户卸载策略的改变引起环境变化，并且设立了一个可信第三方实现了中心化训练，分布式执行的架构。

3.本发明考虑了多用户多接入点的移动边缘计算环境，而目前大多研究着眼于单接入点的环境；此外还考虑了用户的移动性对于卸载决策的影响，建立了一个基于任务量、用户物理位置进行智能卸载的策略。

附图说明

图1是本发明实施例场景示意图；

图2是实施例提供的基于多用户多接入点的任务卸载隐私保护系统结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明提供的基于多用户多接入点的任务卸载隐私保护系统，应用于移动边缘计算网络；所述移动边缘计算网络，包括：用于就近提供移动服务、接受用于任务卸载的多个边缘节点；以及与所述边缘节点进行多对多通信请求任务卸载服务的移动设备；

本发明提供的任务卸载隐私保护系统，包括设置在可信第三方服务器的训练模块、以及设置在移动设备的反馈模块；

所述训练模块，用于根据反馈模块提供的经验数据对决策器进行训练，并将训练收敛的决策器提供给所述反馈模块；优选方案，所述训练模块将多个移动设备的反馈模块提供的局部经验整合为全局经验作为经验数据。

所述决策器为基于马尔可夫的强化学习神经网络，优选为无模型强化学习结构，具体可为DQN强化学习；移动设备l的决策器：

当前时隙t的状态

其中

为当前时隙t移动设备l所需要卸载的任务，

为当前时隙t移动设备l所在的位置；

当前时隙t的卸载决策

为移动设备l以功率

传输任务量为

的任务到边缘节点m，以及本地计算需要的计算功率

和任务量

记作：

当前时隙t的执行卸载决策

所获得的奖励

为：用户体验质量、以及隐私级别的加权和，按照用户体验质量越高、隐私级别越高奖励值越大的原则确定；其中用户体验质量包括计算时延和任务丢失量两方面，按照计算时延越长、任务丢失量越多用户体验质量越低原则确定用户体验质量。所述计算时延为本地计算时延和卸载时延中的较大值，所述任务丢失量为在一个时隙中计算没有完成而被丢失的任务的大小；所述隐私级别，根据移动设备l对于各边缘节点的卸载偏好的熵值，按照值越大隐私级别越高的原则确定。

优选方案，所述设置在可信第三方服务器的训练模块采用，按照如下方法训练决策器：

当前时隙t的全局卸载决策

当前时隙t的全局奖励

其他所有移动设备的卸载决策

全局状态S_t、下一时隙t的全局状态S_t+1为样本，采用梯度更新，以使目标函数最大化为目标进行决策器更新，所述目标函数表征该移动设备行动奖励；优选方案，采用以强化学习神经网络DQN网络Actor作为决策器，以参数

为网络参数的强化学习神经网络目标函数J(π_l)为：

基于梯度更新Actor网络π_l的参数

上述目标函数的梯度可以表示为：

优选采用软更新的方式进行更新。

优选方案，采用DQN网络作为决策器；移动设备l状态行为Q函数表示为：

其中，

表示期望值，S_t表示全局观测，

表示除移动设备l以外的移动设备的动作集合，γ是长期奖励的折扣因子。

优选方案，采用Critic神经网络Q_l来近似移动设备l状态行为Q函数，神经网络对应的网络参数为

通过最小化该移动设备l的损失函数来更新参数

损失函数

定义为：

其中，

表示对于经验池中的样本取

时的数学期望，

优选采用Critic神经网络Q′_l来计算y_l的值。

本发明提供的任务卸载隐私保护方法，包括以下步骤：

(1)检测该移动设备当前所在的位置

以及当前时隙所需要卸载的任务

获得当前时隙t的状态

输入决策器，获得卸载决策

所述卸载决策包移动设备l以功率

传输任务量为

的任务到边缘节点m，以及本地计算需要的计算功率

和任务量

(2)移动设备l按照步骤(2)获得的卸载决策

进行任务卸载，并观察下一时隙状态

并评估当前时隙t的执行卸载决策

所获得的奖励

构建一条移动设备l的局部经验数据

本专利针对多节点的边缘计算环境设计了考虑隐私保护与资源分配的任务卸载策略，不仅有效地保护了用户实时位置，而且兼顾了卸载过程中的用户体验质量，包括计算能耗、计算时延、任务丢失量，综合考虑用户隐私和体验，在两者之间取得平衡。

以下为实施例：

如图1所示，本实施例的移动边缘计算场景为具有三层节点的物联网，第一层是云计算中心，它将部分服务迁移到边缘节点，使其可以就近服务移动用户；第二层是边缘节点，可以接受用户的卸载任务从而减少用户的能耗和计算时延；第三层是移动终端，这些移动设备随用户不断的移动，信道状态也会从而不断改变，因此不能采取固定的卸载策略。值得注意的是，在该卸载场景中，考虑的是一个具有多个接入点的小区，用户可以将计算任务卸载到多个边缘节点，边缘节点(接入点)可以定义为{M₁,M₂,M₃,…,M_m}，移动用户可以定义为{N₁,N₂,N₃,…,N_n}。

在任务卸载过程中，移动用户、边缘节点、可信第三方的交互情况如图2所示。由于每个用户的任务卸载经验数据包含了用户的位置信息，并且卸载决策也会泄露用户的位置隐私，在多智能体强化学习中常见的智能体信息共享不能被应用到该场景中，因此我们考虑设立了一个可信的第三方，中心化训练每个移动设备的决策器，从而实现任务卸载隐私保护。

本实施例提供的任务卸载隐私保护系统，包括设置在可信第三方服务器的训练模块、以及设置在移动设备的反馈模块；

所述训练模块，用于根据反馈模块提供的经验数据对决策器进行训练，并将训练收敛的决策器提供给所述反馈模块；具体地，所述训练模块将多个移动设备的反馈模块提供的局部经验整合为全局经验作为经验数据。

所述决策器采用DQN强化学习神经网络；移动设备l的决策器：

当前时隙t的状态

其中

为当前时隙t移动设备l所需要卸载的任务，

为当前时隙t移动设备;所在的位置；

当前时隙t的卸载决策

为移动设备l以功率

传输任务量为

的任务到边缘节点m，以及本地计算需要的计算功率

和任务量

记作：

当前时隙t的执行卸载决策

所获得的奖励

具体到本实施例，在时隙t奖励

的计算流程如下：

计算时延的获取：

1、根据本地计算功率

和移动设备芯片结构决定的因子k计算出移动设备的CPU频率：

2、移动设备l的本地计算延迟

可以表示为

L表示1bit数据需要的CPU计算周期数；

为本地计算任务量。

3、移动设备l的计算能耗

计算方法如下：

4、该系统采用码分多址，考虑了其他用户卸载到相同的边缘节点引起的干扰，移动设备l和边缘节点v之间的信噪比如下，σ²是信道噪声。

其中，

表示移动设备l和边缘节点v之间信道增益。

5、移动设备l和坐标为(x_v,y_v)的边缘节点v之间信道增益

如下所示，g₀表示距离边缘节点v为1米的基准信道增益，移动设备坐标表示

6、根据信道增益

与带宽B计算出移动设备l和边缘节点v之间的传输速率r_l,v：

7、根据传输速率r_l,v和卸载量

计算出移动设备l卸载到边缘节点v的传输时延

8、根据移动设备l卸载到每个边缘节点的计算时延，计算出移动设备l的传输能耗

9、边缘节点按照移动设备的卸载量平均分配计算资源，根据边缘节点的计算频率

边缘节点v完成计算任务的时延

可以表示为：

10、用户端的能量消耗

包括本地计算产生的能耗

以及传输卸载任务产生的能耗

11、计算时延为本地计算时延

与卸载时延

中的较大值，其中，卸载时延

为

考虑到边缘计算可以高功率发射并且计算结果较小，忽略返回结果的时延。

因此总的计算时延可以表示为

任务丢失量获取：

任务丢失量

是由于该系统要求任务需要在一个时隙中计算完成，没有完成的任务会被丢失。任务丢失量

可以表示为：

其中ζ表示一个时隙的长度，自定义函数f(·)表示：

隐私级别获取：

从卸载量推测出移动设备l对与每个边缘节点的卸载偏好，从而评估出整体的隐私级别，具体流程如下：

1、根据卸载决策计算出卸载到边缘节点的总任务量：

2、从卸载量

推测出移动设备l对与边缘节点v的卸载偏好

3、根据每个边缘节点的卸载偏好

计算出移动设备l在时隙t的隐私熵：

计算奖励

用户体验质量和隐私级别的加权和作为奖励函数，即

其中ω_i,i∈{1,2,3,4}属于权重因子。

每一条经验都会被存储到移动设备l本地，移动设备每隔一段时间将它本地的经验上传到可信第三方服务器。

所述设置在可信第三方服务器的训练模块采用，按照如下方法训练决策器：

当前时隙t的全局卸载决策

当前时隙t的全局奖励

其他所有移动设备的卸载决策

全局状态S_t、下一时隙t的全局状态S_t+1为样本，采用梯度更新，以使目标函数最大化为目标进行决策器更新，所述目标函数表征该移动设备行动奖励；本实施例采用以强化学习神经网络DQN网络Actor作为决策器，以参数

为网络参数的强化学习神经网络目标函数J(π_l)为：

基于梯度更新Actor网络l_l的参数

上述目标函数的梯度可以表示为：

本实施例采用软更新的方式进行更新，具体如下：

Actor网络也采用了在线网络π_l与目标网络π′_l，为了更加平滑更新，Actor与Critic的网络都采用软更新的方式，具体更新为下：

其中δ是软更新参数。

不断更新各个网络，直到每个智能体的决策网络收敛，移动设备再下载最新的Actor网络到移动设备本地，之后就可以本地计算出卸载策略。

本实施例采用DQN网络作为决策器；移动设备l状态行为Q函数表示为：

其中，

表示期望值，S_t表示全局观测，

通过最小化该移动设备l的损失函数来更新参数

损失函数

定义为：

其中，

表示对于经验池中的样本取

时的数学期望，，

本实施例采用Critic神经网络Q′_l来计算y_l的值。上述式子中

和y_l中的

需要同时更新，因此为了避免算法发散，分别设置两个Critic神经网络，在线神经网络Q_l用于计算

目标神经网络Q′_l用于计算y_l值。

本实施例提供的任务卸载隐私保护方法，包括以下步骤：

(1)检测该移动设备当前所在的位置

以及当前时隙所需要卸载的任务

获得当前时隙t的状态

输入决策器，获得卸载决策

所述卸载决策包移动设备l以功率

传输任务量为

的任务到边缘节点m，以及本地计算需要的计算功率

和任务量

(2)移动设备l按照步骤(2)获得的卸载决策

进行任务卸载，并观察下一时隙状态

并评估当前时隙t的执行卸载决策

所获得的奖励

构建一条移动设备l的局部经验数据

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多用户多接入点的任务卸载隐私保护系统，其特征在于，应用于移动边缘计算网络；所述移动边缘计算网络，包括：用于就近提供移动服务、接受用于任务卸载的多个边缘节点；以及与所述边缘节点进行多对多通信请求任务卸载服务的移动设备；

2.如权利要求1所述的基于多用户多接入点的任务卸载隐私保护系统，其特征在于，所述训练模块将多个移动设备的反馈模块提供的局部经验整合为全局经验作为经验数据。

3.如权利要求1或2所述的基于多用户多接入点的任务卸载隐私保护系统，其特征在于，所述决策器为基于马尔可夫的强化学习神经网络，优选为无模型强化学习结构，具体可为DQN强化学习。

4.如权利要求3所述的基于多用户多接入点的任务卸载隐私保护系统，其特征在于，移动设备l的决策器：

当前时隙t的状态

其中

为当前时隙t移动设备l所需要卸载的任务，

为当前时隙t移动设备l所在的位置；

当前时隙t的卸载决策

为移动设备l以功率

传输任务量为

的任务到边缘节点m，以及本地计算需要的计算功率

和任务量

记作：

当前时隙t的执行卸载决策

所获得的奖励

5.如权利要求4所述的基于多用户多接入点的任务卸载隐私保护系统，其特征在于，所述计算时延为本地计算时延和卸载时延中的较大值，所述任务丢失量为在一个时隙中计算没有完成而被丢失的任务的大小；所述隐私级别，根据移动设备l对于各边缘节点的卸载偏好的熵值，按照值越大隐私级别越高的原则确定。

6.如权利要求4所述的基于多用户多接入点的任务卸载隐私保护系统，其特征在于，所述设置在可信第三方服务器的训练模块采用，按照如下方法训练决策器：

当前时隙t的全局卸载决策

当前时隙t的全局奖励

其他所有移动设备的卸载决策

全局状态S_t、下一时隙t的全局状态S_t+1为样本，采用梯度更新，以使目标函数最大化为目标进行决策器更新，所述目标函数表征该移动设备行动奖励。

7.如权利要求6所述的基于多用户多接入点的任务卸载隐私保护系统，其特征在于，采用以强化学习神经网络DQN网络Actor作为决策器，以参数

为网络参数的强化学习神经网络目标函数J(π_l)为：

基于梯度更新Actor网络π_l的参数

上述目标函数的梯度可以表示为：

8.如权利要求7所述的基于多用户多接入点的任务卸载隐私保护系统，其特征在于，采用软更新的方式进行更新。

9.如权利要求7所述的基于多用户多接入点的任务卸载隐私保护系统，其特征在于，移动设备l状态行为Q函数表示为：

其中，

表示期望值，S_t表示全局观测，

通过最小化该移动设备l的损失函数来更新参数

损失函数

定义为：

其中，

表示对于经验池中的样本取

时的数学期望，

优选采用Critic神经网络Q′_l来计算y_l的值。

10.一种基于多用户多接入点的任务卸载隐私保护方法，应用如权利要求1至9任意一项所述的基于多用户多接入点的任务卸载隐私保护系统，包括以下步骤：

(1)检测该移动设备当前所在的位置

以及当前时隙所需要卸载的任务

获得当前时隙t的状态

输入决策器，获得卸载决策

所述卸载决策包移动设备l以功率

传输任务量为

的任务到边缘节点m，以及本地计算需要的计算功率

和任务量

(2)移动设备l按照步骤(2)获得的卸载决策

进行任务卸载，并观察下一时隙状态

并评估当前时隙t的执行卸载决策

所获得的奖励

构建一条移动设备l的局部经验数据