CN115913712A - 基于多用户多接入点的任务卸载隐私保护系统及方法 - Google Patents

基于多用户多接入点的任务卸载隐私保护系统及方法 Download PDF

Info

Publication number
CN115913712A
CN115913712A CN202211431934.1A CN202211431934A CN115913712A CN 115913712 A CN115913712 A CN 115913712A CN 202211431934 A CN202211431934 A CN 202211431934A CN 115913712 A CN115913712 A CN 115913712A
Authority
CN
China
Prior art keywords
task
time slot
mobile device
decision
mobile
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211431934.1A
Other languages
English (en)
Inventor
沈士根
高正俊
吴国文
吴晓平
张红
曹奇英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huzhou University
Original Assignee
Huzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huzhou University filed Critical Huzhou University
Priority to CN202211431934.1A priority Critical patent/CN115913712A/zh
Publication of CN115913712A publication Critical patent/CN115913712A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于多用户多接入点的任务卸载隐私保护系统及方法,应用于移动边缘计算网络;包括设置在可信第三方服务器的训练模块、以及设置在移动设备的反馈模块;所述训练模块,用于根据反馈模块提供的经验数据对决策器进行训练,并将训练收敛的决策器提供给所述反馈模块;所述反馈模块,用于在每个时隙采用所述训练模提供的决策器根据其观察到的当前状态决策向多个可用的边缘节点卸载任务的最优卸载策略。本发明考虑在多接入点的环境中用户由于卸载偏好引起的隐私泄露,制定了基于信息熵的隐私评估指标,并且综合考虑了用户的隐私、能耗、时延、任务丢失作为优化目标,从而在用户隐私和用户体验之间取得平衡。

Description

基于多用户多接入点的任务卸载隐私保护系统及方法
技术领域
本发明属于物联网安全技术领域,更具体地,涉及一种基于多用户多接入点的任务卸载隐私保护系统及方法。
背景技术
随着物联网技术的高速发展和移动设备的普及,便携移动设备嵌入了人脸识别、增强现实等技术,这些技术应用丰富了用户的体验质量。然而,由于移动设备的尺寸限制,它们的计算能力和电量难以满足日益增长的计算需求。在移动边缘计算中,运营商将具有充足的计算资源和存储能力的云计算中心转移到靠近用户的边缘节点。这些边缘节点拥有着不俗的计算资源,可以为移动设备提供计算资源以减少移动设备本地的计算延迟和能力消耗。通常一个区域内包含了多个边缘节点可供卸载,多个移动设备卸载到同一个边缘节点也存在着竞争资源的问题,因此选择一个合适的卸载策略让每个用户都能得到最优的用户体验质量十分重要。
当前,移动设备对不同边缘节点的卸载偏好会暴露用户的实时位置。具体来说,当移动设备只关注延迟和能耗的优化时,由于移动设备为了减少能耗与时延,倾向于将任务卸载到最近的边缘节点进行计算(距离越近,相对应的信道增益也越好),这种卸载偏好可能导致位置泄露。倘若多个边缘节点联合起来,根据同一个移动设备卸载到每个边缘节点的任务量就可以推测出用户到每个边缘节点的信道情况,从而获得用户的实时位置。
已有的传统隐私保护方案,例如认证、安全和私有数据存储和计算、入侵检测等难以解决上述由于卸载决策暴露的隐私问题。此外,过度追求隐私保护的任务卸载决策也会导致用户的计算延迟和能量消耗的增加,从而影响用户体验质量。所以在移动边缘计算中保护隐私的最大挑战是寻找最佳的卸载策略在用户体验质量和隐私保护之间取得平衡。已有的任务卸载方法有李雅普诺夫优化、线性规划、博弈论等方法,然而这些方法大多考虑环境的瞬时优化,也没有考虑到环境的动态变化。而且,传统方法难以解决维度灾难问题,以及需要先验知识,然而系统状态难以使用某些特定的分布去描述。
发明内容
本发明旨在解决现有移动边缘计算中在多接入点的环境中卸载偏好导致的隐私泄露问题,提出一种基于多用户多接入点的任务卸载隐私保护系统及方法。
为实现上述目的,按照本发明的一个方面,提供了一种基于多用户多接入点的任务卸载隐私保护系统,应用于移动边缘计算网络;所述移动边缘计算网络,包括:用于就近提供移动服务、接受用于任务卸载的多个边缘节点;以及与所述边缘节点进行多对多通信请求任务卸载服务的移动设备;
包括设置在可信第三方服务器的训练模块、以及设置在移动设备的反馈模块;
所述训练模块,用于根据反馈模块提供的经验数据对决策器进行训练,并将训练收敛的决策器提供给所述反馈模块;
所述反馈模块,用于在每个时隙采用所述训练模提供的决策器根据其观察到的当前状态决策向多个可用的边缘节点卸载任务的最优卸载策略,并在执行所述最优卸载策略的相应动作后,评价行动奖励并观察下一时隙的状态,形成包括当前状态、动作和奖励的以及下一时隙状态的局部经验;并用于将一段时间的局部经验提供给所述训练模块。
优选地,所述基于多用户多接入点的任务卸载隐私保护系统,其所述训练模块将多个移动设备的反馈模块提供的局部经验整合为全局经验作为经验数据。
优选地,所述基于多用户多接入点的任务卸载隐私保护系统,其所述决策器为基于马尔可夫的强化学习神经网络,优选为无模型强化学习结构,具体可为DQN强化学习。
优选地,所述基于多用户多接入点的任务卸载隐私保护系统,其移动设备l的决策器:
当前时隙t的状态
Figure BDA0003945411360000031
其中
Figure BDA0003945411360000032
为当前时隙t移动设备l所需要卸载的任务,
Figure BDA0003945411360000033
为当前时隙t移动设备l所在的位置;
当前时隙t的卸载决策
Figure BDA0003945411360000034
为移动设备l以功率
Figure BDA0003945411360000035
传输任务量为
Figure BDA0003945411360000036
的任务到边缘节点m,以及本地计算需要的计算功率
Figure BDA0003945411360000037
和任务量
Figure BDA0003945411360000038
记作:
Figure BDA0003945411360000039
当前时隙t的执行卸载决策
Figure BDA00039454113600000310
所获得的奖励
Figure BDA00039454113600000311
为:用户体验质量、以及隐私级别的加权和,按照用户体验质量越高、隐私级别越高奖励值越大的原则确定;其中用户体验质量包括计算时延和任务丢失量两方面,按照计算时延越长、任务丢失量越多用户体验质量越低原则确定用户体验质量。
优选地,所述基于多用户多接入点的任务卸载隐私保护系统,其所述计算时延为本地计算时延和卸载时延中的较大值,所述任务丢失量为在一个时隙中计算没有完成而被丢失的任务的大小;所述隐私级别,根据移动设备l对于各边缘节点的卸载偏好的熵值,按照值越大隐私级别越高的原则确定。
优选地,所述基于多用户多接入点的任务卸载隐私保护系统,其所述设置在可信第三方服务器的训练模块采用,按照如下方法训练决策器:
S1、经验数据收集:所述训练模块收集多个移动设备反馈模块提供的局部经验,并整合为全局经验;所述全局经验为多个移动设备反馈模块提供的局部经验的集合,包括当前时隙t的全局状态
Figure BDA00039454113600000312
当前时隙t的全局卸载决策
Figure BDA0003945411360000041
当前时隙t的全局奖励
Figure BDA0003945411360000042
S2、决策器独立训练:对于每个移动设备,分别独立的以其前时隙t的卸载决策
Figure BDA0003945411360000043
其他所有移动设备的卸载决策
Figure BDA0003945411360000044
全局状态St、下一时隙t的全局状态St+1为样本,采用梯度更新,以使目标函数最大化为目标进行决策器更新,所述目标函数表征该移动设备行动奖励;
优选地,所述基于多用户多接入点的任务卸载隐私保护系统,其采用以强化学习神经网络DQN网络Actor作为决策器,以参数
Figure BDA0003945411360000045
为网络参数的强化学习神经网络目标函数J(πl)为:
Figure BDA0003945411360000046
基于梯度更新Actor网络πl的参数
Figure BDA0003945411360000047
上述目标函数的梯度可以表示为:
Figure BDA0003945411360000048
优选地,所述基于多用户多接入点的任务卸载隐私保护系统,其采用软更新的方式进行更新。
优选地,所述基于多用户多接入点的任务卸载隐私保护系统,其移动设备l状态行为Q函数表示为:
Figure BDA0003945411360000049
其中,
Figure BDA00039454113600000410
表示期望值,St表示全局观测,
Figure BDA00039454113600000411
表示除移动设备l以外的移动设备的动作集合,γ是长期奖励的折扣因子;
采用Critic神经网络Ql来近似移动设备l状态行为Q函数,神经网络对应的网络参数为
Figure BDA00039454113600000412
通过最小化该移动设备l的损失函数来更新参数
Figure BDA00039454113600000413
损失函数
Figure BDA00039454113600000414
定义为:
Figure BDA00039454113600000415
其中,
Figure BDA00039454113600000416
表示对于经验池中的样本取
Figure BDA00039454113600000417
时的数学期望,
Figure BDA00039454113600000418
优选采用Critic神经网络Q′l来计算yl的值。
按照本发明的另一个方面,提供了一种基于多用户多接入点的任务卸载隐私保护方法,应用本发明提供的基于多用户多接入点的任务卸载隐私保护系统,包括以下步骤:
设置在可信第三方服务器的训练模块,为所有移动设备创建或训练决策器;移动设备从第三方服务器下载决策器;
对于任一移动设备l,在时隙t移动设备l需要进行任务卸载时,执行以下步骤:
(1)检测该移动设备当前所在的位置
Figure BDA0003945411360000051
以及当前时隙所需要卸载的任务
Figure BDA0003945411360000052
获得当前时隙t的状态
Figure BDA0003945411360000053
输入决策器,获得卸载决策
Figure BDA0003945411360000054
所述卸载决策包移动设备l以功率
Figure BDA0003945411360000055
传输任务量为
Figure BDA0003945411360000056
的任务到边缘节点m,以及本地计算需要的计算功率
Figure BDA0003945411360000057
和任务量
Figure BDA0003945411360000058
(2)移动设备l按照步骤(2)获得的卸载决策
Figure BDA0003945411360000059
进行任务卸载,并观察下一时隙状态
Figure BDA00039454113600000510
并评估当前时隙t的执行卸载决策
Figure BDA00039454113600000511
所获得的奖励
Figure BDA00039454113600000512
构建一条移动设备l的局部经验数据
Figure BDA00039454113600000513
经过预设时间段,多个移动设备其反馈模块收集局部经验,提交给所述可信第三方服务器的训练模块,所述训练模块将多个移动设备的局部经验整合为全局经验并据此为所述多个移动设备更新决策器。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
1.本发明考虑在多接入点的环境中用户由于卸载偏好引起的隐私泄露,制定了基于信息熵的隐私评估指标,并且综合考虑了用户的隐私、能耗、时延、任务丢失作为优化目标,从而在用户隐私和用户体验之间取得平衡。
2.本发明使用了多智能体深度强化学习来学习策略,相比于传统的单智能体强化学习,考虑了多个用户之间的博弈以及其他用户卸载策略的改变引起环境变化,并且设立了一个可信第三方实现了中心化训练,分布式执行的架构。
3.本发明考虑了多用户多接入点的移动边缘计算环境,而目前大多研究着眼于单接入点的环境;此外还考虑了用户的移动性对于卸载决策的影响,建立了一个基于任务量、用户物理位置进行智能卸载的策略。
附图说明
图1是本发明实施例场景示意图;
图2是实施例提供的基于多用户多接入点的任务卸载隐私保护系统结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明提供的基于多用户多接入点的任务卸载隐私保护系统,应用于移动边缘计算网络;所述移动边缘计算网络,包括:用于就近提供移动服务、接受用于任务卸载的多个边缘节点;以及与所述边缘节点进行多对多通信请求任务卸载服务的移动设备;
本发明提供的任务卸载隐私保护系统,包括设置在可信第三方服务器的训练模块、以及设置在移动设备的反馈模块;
所述训练模块,用于根据反馈模块提供的经验数据对决策器进行训练,并将训练收敛的决策器提供给所述反馈模块;优选方案,所述训练模块将多个移动设备的反馈模块提供的局部经验整合为全局经验作为经验数据。
所述反馈模块,用于在每个时隙采用所述训练模提供的决策器根据其观察到的当前状态决策向多个可用的边缘节点卸载任务的最优卸载策略,并在执行所述最优卸载策略的相应动作后,评价行动奖励并观察下一时隙的状态,形成包括当前状态、动作和奖励的以及下一时隙状态的局部经验;并用于将一段时间的局部经验提供给所述训练模块。
所述决策器为基于马尔可夫的强化学习神经网络,优选为无模型强化学习结构,具体可为DQN强化学习;移动设备l的决策器:
当前时隙t的状态
Figure BDA0003945411360000071
其中
Figure BDA0003945411360000072
为当前时隙t移动设备l所需要卸载的任务,
Figure BDA0003945411360000073
为当前时隙t移动设备l所在的位置;
当前时隙t的卸载决策
Figure BDA0003945411360000074
为移动设备l以功率
Figure BDA0003945411360000075
传输任务量为
Figure BDA0003945411360000076
的任务到边缘节点m,以及本地计算需要的计算功率
Figure BDA0003945411360000077
和任务量
Figure BDA0003945411360000078
记作:
Figure BDA0003945411360000079
当前时隙t的执行卸载决策
Figure BDA00039454113600000710
所获得的奖励
Figure BDA00039454113600000711
为:用户体验质量、以及隐私级别的加权和,按照用户体验质量越高、隐私级别越高奖励值越大的原则确定;其中用户体验质量包括计算时延和任务丢失量两方面,按照计算时延越长、任务丢失量越多用户体验质量越低原则确定用户体验质量。所述计算时延为本地计算时延和卸载时延中的较大值,所述任务丢失量为在一个时隙中计算没有完成而被丢失的任务的大小;所述隐私级别,根据移动设备l对于各边缘节点的卸载偏好的熵值,按照值越大隐私级别越高的原则确定。
优选方案,所述设置在可信第三方服务器的训练模块采用,按照如下方法训练决策器:
S1、经验数据收集:所述训练模块收集多个移动设备反馈模块提供的局部经验,并整合为全局经验;所述全局经验为多个移动设备反馈模块提供的局部经验的集合,包括当前时隙t的全局状态
Figure BDA0003945411360000081
当前时隙t的全局卸载决策
Figure BDA0003945411360000082
当前时隙t的全局奖励
Figure BDA0003945411360000083
S2、决策器独立训练:对于每个移动设备,分别独立的以其前时隙t的卸载决策
Figure BDA0003945411360000084
其他所有移动设备的卸载决策
Figure BDA0003945411360000085
全局状态St、下一时隙t的全局状态St+1为样本,采用梯度更新,以使目标函数最大化为目标进行决策器更新,所述目标函数表征该移动设备行动奖励;优选方案,采用以强化学习神经网络DQN网络Actor作为决策器,以参数
Figure BDA0003945411360000086
为网络参数的强化学习神经网络目标函数J(πl)为:
Figure BDA0003945411360000087
基于梯度更新Actor网络πl的参数
Figure BDA0003945411360000088
上述目标函数的梯度可以表示为:
Figure BDA0003945411360000089
优选采用软更新的方式进行更新。
优选方案,采用DQN网络作为决策器;移动设备l状态行为Q函数表示为:
Figure BDA00039454113600000810
其中,
Figure BDA00039454113600000811
表示期望值,St表示全局观测,
Figure BDA00039454113600000812
表示除移动设备l以外的移动设备的动作集合,γ是长期奖励的折扣因子。
优选方案,采用Critic神经网络Ql来近似移动设备l状态行为Q函数,神经网络对应的网络参数为
Figure BDA00039454113600000813
通过最小化该移动设备l的损失函数来更新参数
Figure BDA00039454113600000814
损失函数
Figure BDA00039454113600000815
定义为:
Figure BDA00039454113600000816
其中,
Figure BDA00039454113600000817
表示对于经验池中的样本取
Figure BDA00039454113600000818
时的数学期望,
Figure BDA00039454113600000819
优选采用Critic神经网络Q′l来计算yl的值。
本发明提供的任务卸载隐私保护方法,包括以下步骤:
设置在可信第三方服务器的训练模块,为所有移动设备创建或训练决策器;移动设备从第三方服务器下载决策器;
对于任一移动设备l,在时隙t移动设备l需要进行任务卸载时,执行以下步骤:
(1)检测该移动设备当前所在的位置
Figure BDA0003945411360000091
以及当前时隙所需要卸载的任务
Figure BDA0003945411360000092
获得当前时隙t的状态
Figure BDA0003945411360000093
输入决策器,获得卸载决策
Figure BDA0003945411360000094
所述卸载决策包移动设备l以功率
Figure BDA0003945411360000095
传输任务量为
Figure BDA0003945411360000096
的任务到边缘节点m,以及本地计算需要的计算功率
Figure BDA0003945411360000097
和任务量
Figure BDA0003945411360000098
(2)移动设备l按照步骤(2)获得的卸载决策
Figure BDA0003945411360000099
进行任务卸载,并观察下一时隙状态
Figure BDA00039454113600000910
并评估当前时隙t的执行卸载决策
Figure BDA00039454113600000911
所获得的奖励
Figure BDA00039454113600000912
构建一条移动设备l的局部经验数据
Figure BDA00039454113600000913
经过预设时间段,多个移动设备其反馈模块收集局部经验,提交给所述可信第三方服务器的训练模块,所述训练模块将多个移动设备的局部经验整合为全局经验并据此为所述多个移动设备更新决策器。
本专利针对多节点的边缘计算环境设计了考虑隐私保护与资源分配的任务卸载策略,不仅有效地保护了用户实时位置,而且兼顾了卸载过程中的用户体验质量,包括计算能耗、计算时延、任务丢失量,综合考虑用户隐私和体验,在两者之间取得平衡。
以下为实施例:
如图1所示,本实施例的移动边缘计算场景为具有三层节点的物联网,第一层是云计算中心,它将部分服务迁移到边缘节点,使其可以就近服务移动用户;第二层是边缘节点,可以接受用户的卸载任务从而减少用户的能耗和计算时延;第三层是移动终端,这些移动设备随用户不断的移动,信道状态也会从而不断改变,因此不能采取固定的卸载策略。值得注意的是,在该卸载场景中,考虑的是一个具有多个接入点的小区,用户可以将计算任务卸载到多个边缘节点,边缘节点(接入点)可以定义为{M1,M2,M3,…,Mm},移动用户可以定义为{N1,N2,N3,…,Nn}。
在任务卸载过程中,移动用户、边缘节点、可信第三方的交互情况如图2所示。由于每个用户的任务卸载经验数据包含了用户的位置信息,并且卸载决策也会泄露用户的位置隐私,在多智能体强化学习中常见的智能体信息共享不能被应用到该场景中,因此我们考虑设立了一个可信的第三方,中心化训练每个移动设备的决策器,从而实现任务卸载隐私保护。
本实施例提供的任务卸载隐私保护系统,包括设置在可信第三方服务器的训练模块、以及设置在移动设备的反馈模块;
所述训练模块,用于根据反馈模块提供的经验数据对决策器进行训练,并将训练收敛的决策器提供给所述反馈模块;具体地,所述训练模块将多个移动设备的反馈模块提供的局部经验整合为全局经验作为经验数据。
所述反馈模块,用于在每个时隙采用所述训练模提供的决策器根据其观察到的当前状态决策向多个可用的边缘节点卸载任务的最优卸载策略,并在执行所述最优卸载策略的相应动作后,评价行动奖励并观察下一时隙的状态,形成包括当前状态、动作和奖励的以及下一时隙状态的局部经验;并用于将一段时间的局部经验提供给所述训练模块。
所述决策器采用DQN强化学习神经网络;移动设备l的决策器:
当前时隙t的状态
Figure BDA0003945411360000101
其中
Figure BDA0003945411360000102
为当前时隙t移动设备l所需要卸载的任务,
Figure BDA0003945411360000103
为当前时隙t移动设备;所在的位置;
当前时隙t的卸载决策
Figure BDA0003945411360000104
为移动设备l以功率
Figure BDA0003945411360000105
传输任务量为
Figure BDA0003945411360000106
的任务到边缘节点m,以及本地计算需要的计算功率
Figure BDA0003945411360000107
和任务量
Figure BDA0003945411360000108
记作:
Figure BDA0003945411360000111
当前时隙t的执行卸载决策
Figure BDA0003945411360000112
所获得的奖励
Figure BDA0003945411360000113
为:用户体验质量、以及隐私级别的加权和,按照用户体验质量越高、隐私级别越高奖励值越大的原则确定;其中用户体验质量包括计算时延和任务丢失量两方面,按照计算时延越长、任务丢失量越多用户体验质量越低原则确定用户体验质量。所述计算时延为本地计算时延和卸载时延中的较大值,所述任务丢失量为在一个时隙中计算没有完成而被丢失的任务的大小;所述隐私级别,根据移动设备l对于各边缘节点的卸载偏好的熵值,按照值越大隐私级别越高的原则确定。
具体到本实施例,在时隙t奖励
Figure BDA0003945411360000114
的计算流程如下:
计算时延的获取:
1、根据本地计算功率
Figure BDA0003945411360000115
和移动设备芯片结构决定的因子k计算出移动设备的CPU频率:
Figure BDA0003945411360000116
2、移动设备l的本地计算延迟
Figure BDA0003945411360000117
可以表示为
Figure BDA0003945411360000118
L表示1bit数据需要的CPU计算周期数;
Figure BDA0003945411360000119
为本地计算任务量。
3、移动设备l的计算能耗
Figure BDA00039454113600001110
计算方法如下:
Figure BDA00039454113600001111
4、该系统采用码分多址,考虑了其他用户卸载到相同的边缘节点引起的干扰,移动设备l和边缘节点v之间的信噪比如下,σ2是信道噪声。
Figure BDA00039454113600001112
其中,
Figure BDA00039454113600001113
表示移动设备l和边缘节点v之间信道增益。
5、移动设备l和坐标为(xv,yv)的边缘节点v之间信道增益
Figure BDA00039454113600001114
如下所示,g0表示距离边缘节点v为1米的基准信道增益,移动设备坐标表示
Figure BDA0003945411360000121
Figure BDA0003945411360000122
6、根据信道增益
Figure BDA0003945411360000123
与带宽B计算出移动设备l和边缘节点v之间的传输速率rl,v
Figure BDA0003945411360000124
7、根据传输速率rl,v和卸载量
Figure BDA0003945411360000125
计算出移动设备l卸载到边缘节点v的传输时延
Figure BDA0003945411360000126
Figure BDA0003945411360000127
8、根据移动设备l卸载到每个边缘节点的计算时延,计算出移动设备l的传输能耗
Figure BDA0003945411360000128
Figure BDA0003945411360000129
9、边缘节点按照移动设备的卸载量平均分配计算资源,根据边缘节点的计算频率
Figure BDA00039454113600001210
边缘节点v完成计算任务的时延
Figure BDA00039454113600001211
可以表示为:
Figure BDA00039454113600001212
10、用户端的能量消耗
Figure BDA00039454113600001213
包括本地计算产生的能耗
Figure BDA00039454113600001214
以及传输卸载任务产生的能耗
Figure BDA00039454113600001215
Figure BDA00039454113600001216
11、计算时延为本地计算时延
Figure BDA00039454113600001217
与卸载时延
Figure BDA00039454113600001218
中的较大值,其中,卸载时延
Figure BDA00039454113600001219
Figure BDA00039454113600001220
考虑到边缘计算可以高功率发射并且计算结果较小,忽略返回结果的时延。
因此总的计算时延可以表示为
Figure BDA0003945411360000131
任务丢失量获取:
任务丢失量
Figure BDA0003945411360000132
是由于该系统要求任务需要在一个时隙中计算完成,没有完成的任务会被丢失。任务丢失量
Figure BDA0003945411360000133
可以表示为:
Figure BDA0003945411360000134
其中ζ表示一个时隙的长度,自定义函数f(·)表示:
Figure BDA0003945411360000135
隐私级别获取:
从卸载量推测出移动设备l对与每个边缘节点的卸载偏好,从而评估出整体的隐私级别,具体流程如下:
1、根据卸载决策计算出卸载到边缘节点的总任务量:
Figure BDA0003945411360000136
2、从卸载量
Figure BDA0003945411360000137
推测出移动设备l对与边缘节点v的卸载偏好
Figure BDA0003945411360000138
Figure BDA0003945411360000139
3、根据每个边缘节点的卸载偏好
Figure BDA00039454113600001310
计算出移动设备l在时隙t的隐私熵:
Figure BDA00039454113600001311
计算奖励
Figure BDA00039454113600001312
用户体验质量和隐私级别的加权和作为奖励函数,即
Figure BDA00039454113600001313
其中ωi,i∈{1,2,3,4}属于权重因子。
每一条经验都会被存储到移动设备l本地,移动设备每隔一段时间将它本地的经验上传到可信第三方服务器。
所述设置在可信第三方服务器的训练模块采用,按照如下方法训练决策器:
S1、经验数据收集:所述训练模块收集多个移动设备反馈模块提供的局部经验,并整合为全局经验;所述全局经验为多个移动设备反馈模块提供的局部经验的集合,包括当前时隙t的全局状态
Figure BDA0003945411360000141
当前时隙t的全局卸载决策
Figure BDA0003945411360000142
当前时隙t的全局奖励
Figure BDA0003945411360000143
S2、决策器独立训练:对于每个移动设备,分别独立的以其前时隙t的卸载决策
Figure BDA0003945411360000144
其他所有移动设备的卸载决策
Figure BDA0003945411360000145
全局状态St、下一时隙t的全局状态St+1为样本,采用梯度更新,以使目标函数最大化为目标进行决策器更新,所述目标函数表征该移动设备行动奖励;本实施例采用以强化学习神经网络DQN网络Actor作为决策器,以参数
Figure BDA0003945411360000146
为网络参数的强化学习神经网络目标函数J(πl)为:
Figure BDA0003945411360000147
基于梯度更新Actor网络ll的参数
Figure BDA0003945411360000148
上述目标函数的梯度可以表示为:
Figure BDA0003945411360000149
本实施例采用软更新的方式进行更新,具体如下:
Actor网络也采用了在线网络πl与目标网络π′l,为了更加平滑更新,Actor与Critic的网络都采用软更新的方式,具体更新为下:
Figure BDA00039454113600001410
Figure BDA00039454113600001411
其中δ是软更新参数。
不断更新各个网络,直到每个智能体的决策网络收敛,移动设备再下载最新的Actor网络到移动设备本地,之后就可以本地计算出卸载策略。
本实施例采用DQN网络作为决策器;移动设备l状态行为Q函数表示为:
Figure BDA00039454113600001412
其中,
Figure BDA00039454113600001413
表示期望值,St表示全局观测,
Figure BDA00039454113600001414
表示除移动设备l以外的移动设备的动作集合,γ是长期奖励的折扣因子。
采用Critic神经网络Ql来近似移动设备l状态行为Q函数,神经网络对应的网络参数为
Figure BDA0003945411360000151
通过最小化该移动设备l的损失函数来更新参数
Figure BDA0003945411360000152
损失函数
Figure BDA0003945411360000153
定义为:
Figure BDA0003945411360000154
其中,
Figure BDA0003945411360000155
表示对于经验池中的样本取
Figure BDA0003945411360000156
时的数学期望,,
Figure BDA0003945411360000157
本实施例采用Critic神经网络Q′l来计算yl的值。上述式子中
Figure BDA0003945411360000158
和yl中的
Figure BDA0003945411360000159
需要同时更新,因此为了避免算法发散,分别设置两个Critic神经网络,在线神经网络Ql用于计算
Figure BDA00039454113600001510
目标神经网络Q′l用于计算yl值。
本实施例提供的任务卸载隐私保护方法,包括以下步骤:
设置在可信第三方服务器的训练模块,为所有移动设备创建或训练决策器;移动设备从第三方服务器下载决策器;
对于任一移动设备l,在时隙t移动设备l需要进行任务卸载时,执行以下步骤:
(1)检测该移动设备当前所在的位置
Figure BDA00039454113600001511
以及当前时隙所需要卸载的任务
Figure BDA00039454113600001512
获得当前时隙t的状态
Figure BDA00039454113600001513
输入决策器,获得卸载决策
Figure BDA00039454113600001514
所述卸载决策包移动设备l以功率
Figure BDA00039454113600001515
传输任务量为
Figure BDA00039454113600001516
的任务到边缘节点m,以及本地计算需要的计算功率
Figure BDA00039454113600001517
和任务量
Figure BDA00039454113600001518
(2)移动设备l按照步骤(2)获得的卸载决策
Figure BDA00039454113600001519
进行任务卸载,并观察下一时隙状态
Figure BDA00039454113600001520
并评估当前时隙t的执行卸载决策
Figure BDA00039454113600001521
所获得的奖励
Figure BDA00039454113600001522
构建一条移动设备l的局部经验数据
Figure BDA00039454113600001523
经过预设时间段,多个移动设备其反馈模块收集局部经验,提交给所述可信第三方服务器的训练模块,所述训练模块将多个移动设备的局部经验整合为全局经验并据此为所述多个移动设备更新决策器。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于多用户多接入点的任务卸载隐私保护系统,其特征在于,应用于移动边缘计算网络;所述移动边缘计算网络,包括:用于就近提供移动服务、接受用于任务卸载的多个边缘节点;以及与所述边缘节点进行多对多通信请求任务卸载服务的移动设备;
包括设置在可信第三方服务器的训练模块、以及设置在移动设备的反馈模块;
所述训练模块,用于根据反馈模块提供的经验数据对决策器进行训练,并将训练收敛的决策器提供给所述反馈模块;
所述反馈模块,用于在每个时隙采用所述训练模提供的决策器根据其观察到的当前状态决策向多个可用的边缘节点卸载任务的最优卸载策略,并在执行所述最优卸载策略的相应动作后,评价行动奖励并观察下一时隙的状态,形成包括当前状态、动作和奖励的以及下一时隙状态的局部经验;并用于将一段时间的局部经验提供给所述训练模块。
2.如权利要求1所述的基于多用户多接入点的任务卸载隐私保护系统,其特征在于,所述训练模块将多个移动设备的反馈模块提供的局部经验整合为全局经验作为经验数据。
3.如权利要求1或2所述的基于多用户多接入点的任务卸载隐私保护系统,其特征在于,所述决策器为基于马尔可夫的强化学习神经网络,优选为无模型强化学习结构,具体可为DQN强化学习。
4.如权利要求3所述的基于多用户多接入点的任务卸载隐私保护系统,其特征在于,移动设备l的决策器:
当前时隙t的状态
Figure FDA0003945411350000011
其中
Figure FDA0003945411350000012
为当前时隙t移动设备l所需要卸载的任务,
Figure FDA0003945411350000013
为当前时隙t移动设备l所在的位置;
当前时隙t的卸载决策
Figure FDA0003945411350000021
为移动设备l以功率
Figure FDA0003945411350000022
传输任务量为
Figure FDA0003945411350000023
的任务到边缘节点m,以及本地计算需要的计算功率
Figure FDA0003945411350000024
和任务量
Figure FDA0003945411350000025
记作:
Figure FDA0003945411350000026
当前时隙t的执行卸载决策
Figure FDA0003945411350000027
所获得的奖励
Figure FDA0003945411350000028
为:用户体验质量、以及隐私级别的加权和,按照用户体验质量越高、隐私级别越高奖励值越大的原则确定;其中用户体验质量包括计算时延和任务丢失量两方面,按照计算时延越长、任务丢失量越多用户体验质量越低原则确定用户体验质量。
5.如权利要求4所述的基于多用户多接入点的任务卸载隐私保护系统,其特征在于,所述计算时延为本地计算时延和卸载时延中的较大值,所述任务丢失量为在一个时隙中计算没有完成而被丢失的任务的大小;所述隐私级别,根据移动设备l对于各边缘节点的卸载偏好的熵值,按照值越大隐私级别越高的原则确定。
6.如权利要求4所述的基于多用户多接入点的任务卸载隐私保护系统,其特征在于,所述设置在可信第三方服务器的训练模块采用,按照如下方法训练决策器:
S1、经验数据收集:所述训练模块收集多个移动设备反馈模块提供的局部经验,并整合为全局经验;所述全局经验为多个移动设备反馈模块提供的局部经验的集合,包括当前时隙t的全局状态
Figure FDA0003945411350000029
当前时隙t的全局卸载决策
Figure FDA00039454113500000210
当前时隙t的全局奖励
Figure FDA00039454113500000211
S2、决策器独立训练:对于每个移动设备,分别独立的以其前时隙t的卸载决策
Figure FDA00039454113500000212
其他所有移动设备的卸载决策
Figure FDA00039454113500000213
全局状态St、下一时隙t的全局状态St+1为样本,采用梯度更新,以使目标函数最大化为目标进行决策器更新,所述目标函数表征该移动设备行动奖励。
7.如权利要求6所述的基于多用户多接入点的任务卸载隐私保护系统,其特征在于,采用以强化学习神经网络DQN网络Actor作为决策器,以参数
Figure FDA00039454113500000314
为网络参数的强化学习神经网络目标函数J(πl)为:
Figure FDA0003945411350000031
基于梯度更新Actor网络πl的参数
Figure FDA0003945411350000032
上述目标函数的梯度可以表示为:
Figure FDA0003945411350000033
8.如权利要求7所述的基于多用户多接入点的任务卸载隐私保护系统,其特征在于,采用软更新的方式进行更新。
9.如权利要求7所述的基于多用户多接入点的任务卸载隐私保护系统,其特征在于,移动设备l状态行为Q函数表示为:
Figure FDA0003945411350000034
其中,
Figure FDA0003945411350000035
表示期望值,St表示全局观测,
Figure FDA0003945411350000036
表示除移动设备l以外的移动设备的动作集合,γ是长期奖励的折扣因子;
采用Critic神经网络Ql来近似移动设备l状态行为Q函数,神经网络对应的网络参数为
Figure FDA0003945411350000037
通过最小化该移动设备l的损失函数来更新参数
Figure FDA0003945411350000038
损失函数
Figure FDA0003945411350000039
定义为:
Figure FDA00039454113500000310
其中,
Figure FDA00039454113500000311
表示对于经验池中的样本取
Figure FDA00039454113500000312
时的数学期望,
Figure FDA00039454113500000313
优选采用Critic神经网络Q′l来计算yl的值。
10.一种基于多用户多接入点的任务卸载隐私保护方法,应用如权利要求1至9任意一项所述的基于多用户多接入点的任务卸载隐私保护系统,包括以下步骤:
设置在可信第三方服务器的训练模块,为所有移动设备创建或训练决策器;移动设备从第三方服务器下载决策器;
对于任一移动设备l,在时隙t移动设备l需要进行任务卸载时,执行以下步骤:
(1)检测该移动设备当前所在的位置
Figure FDA0003945411350000041
以及当前时隙所需要卸载的任务
Figure FDA0003945411350000042
获得当前时隙t的状态
Figure FDA0003945411350000043
输入决策器,获得卸载决策
Figure FDA0003945411350000044
所述卸载决策包移动设备l以功率
Figure FDA0003945411350000045
传输任务量为
Figure FDA0003945411350000046
的任务到边缘节点m,以及本地计算需要的计算功率
Figure FDA0003945411350000047
和任务量
Figure FDA0003945411350000048
(2)移动设备l按照步骤(2)获得的卸载决策
Figure FDA0003945411350000049
进行任务卸载,并观察下一时隙状态
Figure FDA00039454113500000410
并评估当前时隙t的执行卸载决策
Figure FDA00039454113500000411
所获得的奖励
Figure FDA00039454113500000412
构建一条移动设备l的局部经验数据
Figure FDA00039454113500000413
经过预设时间段,多个移动设备其反馈模块收集局部经验,提交给所述可信第三方服务器的训练模块,所述训练模块将多个移动设备的局部经验整合为全局经验并据此为所述多个移动设备更新决策器。
CN202211431934.1A 2022-11-16 2022-11-16 基于多用户多接入点的任务卸载隐私保护系统及方法 Pending CN115913712A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211431934.1A CN115913712A (zh) 2022-11-16 2022-11-16 基于多用户多接入点的任务卸载隐私保护系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211431934.1A CN115913712A (zh) 2022-11-16 2022-11-16 基于多用户多接入点的任务卸载隐私保护系统及方法

Publications (1)

Publication Number Publication Date
CN115913712A true CN115913712A (zh) 2023-04-04

Family

ID=86496682

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211431934.1A Pending CN115913712A (zh) 2022-11-16 2022-11-16 基于多用户多接入点的任务卸载隐私保护系统及方法

Country Status (1)

Country Link
CN (1) CN115913712A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116341685A (zh) * 2023-05-31 2023-06-27 合肥工业大学智能制造技术研究院 基于联合注意力的分布式计算卸载模型训练方法和系统
CN117202173A (zh) * 2023-11-07 2023-12-08 中博信息技术研究院有限公司 一种面向用户隐私保护的边缘计算卸载方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116341685A (zh) * 2023-05-31 2023-06-27 合肥工业大学智能制造技术研究院 基于联合注意力的分布式计算卸载模型训练方法和系统
CN116341685B (zh) * 2023-05-31 2023-07-21 合肥工业大学智能制造技术研究院 基于联合注意力的分布式计算卸载模型训练方法和系统
CN117202173A (zh) * 2023-11-07 2023-12-08 中博信息技术研究院有限公司 一种面向用户隐私保护的边缘计算卸载方法

Similar Documents

Publication Publication Date Title
Li et al. Deep reinforcement learning approaches for content caching in cache-enabled D2D networks
CN113434212B (zh) 基于元强化学习的缓存辅助任务协作卸载与资源分配方法
CN115913712A (zh) 基于多用户多接入点的任务卸载隐私保护系统及方法
CN112181666A (zh) 一种基于边缘智能的设备评估和联邦学习重要性聚合方法、系统、设备和可读存储介质
Raj et al. Data gathering via mobile sink in WSNs using game theory and enhanced ant colony optimization
Zhou et al. [Retracted] Machine Learning‐Based Offloading Strategy for Lightweight User Mobile Edge Computing Tasks
CN112422644B (zh) 计算任务卸载方法及系统、电子设备和存储介质
Wu et al. Multi-agent DRL for joint completion delay and energy consumption with queuing theory in MEC-based IIoT
Wu et al. Mobility-aware deep reinforcement learning with glimpse mobility prediction in edge computing
CN113568727A (zh) 一种基于深度强化学习的移动边缘计算任务分配方法
Kang et al. Quality-aware online task assignment in mobile crowdsourcing
Chen et al. Cache-assisted collaborative task offloading and resource allocation strategy: A metareinforcement learning approach
CN113760511B (zh) 一种基于深度确定性策略的车辆边缘计算任务卸载方法
Wang et al. Reputation-enabled federated learning model aggregation in mobile platforms
CN116489712B (zh) 一种基于深度强化学习的移动边缘计算任务卸载方法
CN116260871A (zh) 一种基于本地和边缘协同缓存的独立任务卸载方法
Yu et al. Collaborative computation offloading for multi-access edge computing
CN116669111A (zh) 一种基于区块链的移动边缘计算任务卸载方法
Huang et al. Reinforcement learning for cost-effective IoT service caching at the edge
Seyfollahi et al. Enhancing mobile crowdsensing in Fog-based Internet of Things utilizing Harris hawks optimization
CN114528081A (zh) 一种面向移动边缘计算用户隐私保护的任务卸载优化方法
Liu et al. Multi-agent federated reinforcement learning strategy for mobile virtual reality delivery networks
Wu et al. Mobility-aware deep reinforcement learning with seq2seq mobility prediction for offloading and allocation in edge computing
Yang et al. Multi-objective deep reinforcement learning for mobile edge computing
Vo et al. Reinforcement-Learning-Based Deadline Constrained Task Offloading Schema for Energy Saving in Vehicular Edge Computing System

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination