CN117539640B - 一种面向异构推理任务的边端协同系统及资源分配方法 - Google Patents
一种面向异构推理任务的边端协同系统及资源分配方法 Download PDFInfo
- Publication number
- CN117539640B CN117539640B CN202410026413.0A CN202410026413A CN117539640B CN 117539640 B CN117539640 B CN 117539640B CN 202410026413 A CN202410026413 A CN 202410026413A CN 117539640 B CN117539640 B CN 117539640B
- Authority
- CN
- China
- Prior art keywords
- internet
- heterogeneous
- edge server
- things
- things equipment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000013468 resource allocation Methods 0.000 title claims abstract description 25
- 230000005540 biological transmission Effects 0.000 claims description 45
- 230000006870 function Effects 0.000 claims description 40
- 230000009471 action Effects 0.000 claims description 38
- 239000003795 chemical substances by application Substances 0.000 claims description 27
- 230000002776 aggregation Effects 0.000 claims description 17
- 238000004220 aggregation Methods 0.000 claims description 17
- 238000005457 optimization Methods 0.000 claims description 14
- 238000005265 energy consumption Methods 0.000 claims description 12
- 230000006855 networking Effects 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 4
- 230000002452 interceptive effect Effects 0.000 claims description 4
- 239000000654 additive Substances 0.000 claims description 3
- 230000000996 additive effect Effects 0.000 claims description 3
- 238000013136 deep learning model Methods 0.000 claims description 3
- 238000003780 insertion Methods 0.000 claims description 3
- 230000037431 insertion Effects 0.000 claims description 3
- 230000007774 longterm Effects 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 230000003068 static effect Effects 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims 1
- 238000012545 processing Methods 0.000 abstract description 6
- 230000002787 reinforcement Effects 0.000 description 6
- 238000009826 distribution Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5061—Partitioning or combining of resources
- G06F9/5072—Grid computing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/231—Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5061—Partitioning or combining of resources
- G06F9/5066—Algorithms for mapping a plurality of inter-dependent sub-tasks onto a plurality of physical CPUs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0985—Hyperparameter optimisation; Meta-learning; Learning-to-learn
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/041—Abduction
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computer And Data Communications (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种边缘技术领域的面向异构推理任务的边端协同系统及资源分配方法,旨在解决现有技术中异构边缘服务器无法为异构推理任务进行合理、高效的资源分配等问题,边端协同系统包括终端设备层和边缘服务器层,终端设备层包括多个物联网设备,边缘服务器层包括多个异构边缘服务器,以及应用于边端协同系统的资源分配方法。本发明对物联网设备产生的多个并行异构推理任务进行边端协同处理,实现在满足推理任务不同需求的同时最大化系统的资源利用率。
Description
技术领域
本发明涉及一种面向异构推理任务的边端协同系统及资源分配方法,属于边缘计算技术领域。
背景技术
区别于传统的云计算,移动边缘计算技术的出现使得各种应用程序可以部署在终端设备或附近的服务器,而不必全部上传到远程云上。在边缘网络上进行任务的处理不仅降低用户隐私泄漏的风险,而且有助于减少任务处理时延,进而提高服务质量。但是,与云服务器相比,边缘服务器的计算资源有限,难以为大量用户提供无限服务,并且不同的边缘服务器可为用户提供的资源是异构的。
在现实场景中,终端设备产生多个异构DNN(Deep Neural Networks,深度神经网络)推理任务,不同推理任务通常具有不同的延迟等待时间和QoS(Quality of Service,服务质量)要求,因而这些异构推理任务对计算和存储等资源的需求不同。异构任务并行接入要求充分利用不同类型的计算资源,如果任务之间的资源利用不均衡,可能导致某些计算资源空闲,而其他资源超负荷。因而,在移动边缘计算中,异构边缘服务器为异构推理任务进行合理、高效的资源分配仍然是提升资源利用率和提高QoS亟待解决的问题。
在现有研究中,多数未考虑推理任务的异构性,且在考虑异构任务的研究中,使用聚类算法对异构任务进行聚类时,由于算法本身计算复杂度太高,尤其当样本数量较多时就会消耗大量时间,对奇异值也会造成很大干扰,影响聚类结果的准确性,降低算法效率。
同时现有的资源分配方法多采用基于启发式的算法和基于深度强化学习的方法,然而,基于启发式的算法不能根据环境的动态变化适时制定资源分配方案,基于深度强化学习方法的资源分配方案会因为高维度问题导致收敛速度慢、探索效果差;并且因为训练样本少以及网络环境的快速变化导致学习效率降低。
发明内容
本发明的目的在于克服现有技术中的不足,提供一种面向异构推理任务的边端协同系统及资源分配方法,对物联网设备产生的多个并行异构推理任务进行边端协同处理,实现在满足推理任务不同需求的同时最大化系统的资源利用率。
为达到上述目的,本发明是采用下述技术方案实现的:
一方面,本申请提供一种面向异构推理任务的边端协同系统,包括终端设备层和边缘服务器层。
所述终端设备层包括多个物联网设备,每个所述物联网设备用于负责由单个深度学习模型组成的异构推理任务。
所述边缘服务器层包括多个异构边缘服务器,所述异构边缘服务器与物联网设备协作完成异构推理任务。
另一方面,本申请提供一种面向异构推理任务的资源分配方法,应用于上述边端协同系统中。
所述面向异构推理任务的资源分配方法包括以下步骤:
对移动边缘计算网络环境进行建模,得到移动边缘计算网络环境模型;
在移动边缘计算网络环境模型中根据边端协同系统中的资源分配优化问题,构建优化目标函数;
将优化目标函数转换为马尔可夫决策问题模型;
对层次凝聚聚类算法进行改进,得改进后的层次凝聚聚类算法;
利用改进后的层次凝聚聚类算法将推理任务聚类成不同的任务簇,得任务簇的分类结果;
根据马尔科夫决策问题模型构建基于元学习的Actor-Critic网络;
根据任务簇的分类结果利用Actor-Critic网络对异构边缘服务器进行交互训练,并更新Actor-Critic网络的参数,得到训练完成的异构边缘服务器,即为智能体;
智能体利用Actor-Critic网络调整资源分配,物联网设备获得分配功率,并与智能体协同处理异构推理任务。
进一步的,对移动边缘计算网络环境进行建模,得到移动边缘计算网络环境模型,包括:
预设系统中物联网设备的集合为,物联网设备/>产生连续的多个推理任务/>,系统中产生的推理任务集合为/>,异构边缘服务器的集合为/>;
在t时刻,异构边缘服务器与物联网设备/>之间的连接用决策变量/>表示:
当物联网设备上产生的多个异构推理任务所需资源与异构边缘服务器/>的计算资源相同时,/>,其表示物联网设备/>与异构边缘服务器/>连接;
当物联网设备上产生的多个异构推理任务所需资源与异构边缘服务器/>的计算资源不同时,/>,其表示物联网设备/>与异构边缘服务器/>没有连接。
将物联网设备与异构边缘服务器/>之间可实现的上行链路最大数据传输速率表示为:
,
其中,表示分配给物联网设备/>的链路带宽资源,/>为物联网设备/>到异构边缘服务器/>的信噪比,其表达式为:
,
其中,表示物联网设备/>与异构边缘服务器/>的信道增益,/>表示在t时隙内异构边缘服务器/>分配给物联网设备/>的发射功率,/>表示加性高斯白噪声的方差。
进一步的,在移动边缘计算网络环境模型中根据边端协同系统中的资源分配优化问题,构建优化目标函数,包括:
在移动边缘计算网络环境模型中,时间内,系统中的总能量消耗表示为:
,
其中,为系统的总能量消耗,/>为系统中的异构边缘服务器数量,/>为系统中的物联网设备数量,/>为在t时刻异构边缘服务器/>与物联网设备/>之间的连接用决策变量,表示在t时刻异构边缘服务器/>分配给物联网设备/>的发射功率,/>是在t时刻系统中异构边缘服务器的静态功率值。
在时间内,系统中所需要的数据传输速率/>表示为:
,
其中,是在t时刻物联网设备/>与异构边缘服务器/>的数据传输速率,/>为系统中的物联网设备数量。
系统的能量效率表示为:
,
其中,为边端协同系统的能量效率,/>为边端协同系统中所需要的数据传输速率,/>为边端协同系统中的总能量消耗。
构建边端协同系统的优化目标函数,其表达式为:
,
,
,
,
,
,
其中,为优化目标函数,表示最大化系统的资源利用率;S、P为优化目标函数的优化变量,/>表示异构边缘服务器/>与物联网设备/>之间的连接决策,/>表示异构边缘服务器/>给物联网设备/>产生的推理任务分配的功率。
C1表示保证有异构边缘服务器为物联网设备分配相应的计算资源,其中,为系统中的异构边缘服务器数量,/>表示在t时刻物联网设备/>与异构边缘服务器/>连接。
C2表示物联网设备的发射功率约束条件,其中,为物联网设备的最大功率。
C3表示物联网设备和异构边缘服务器间的信噪比应大于系统设定的最小信噪比值,其中,为物联网设备/>到异构边缘服务器/>的信噪比,/>为系统设定的最小信噪比。
C4表示推理任务应该在最大传输容忍时间内完成传输,其中,为在t时刻物联网设备/>与异构边缘服务器/>的数据传输速率,/>为在t时刻异构边缘服务器/>分配给物联网设备/>的链路带宽资源,/>为系统最大传输容忍时间。
C5表示物联网设备与异构边缘服务器/>的数据插传输速率不超过其最大数据传输速率,其中,/>为物联网设备/>与异构边缘服务器/>之间可实现的上行链路最大数据传输速率。
进一步的,所述马尔科夫决策问题模型的五元组建模为;
其中,为状态空间,其表示为异构边缘服务器/>与物联网设备/>的连接决策以及每个异构边缘服务器的总功率,/>;/>为动作空间,其表示为异构边缘服务器/>分配给物联网设备的功率,/>;/>为执行动作a后从状态/>到/>的转移状态概率,;/>为系统的奖励函数,其表达式如下:
,
其中,表示系统的奖励函数,/>表示为在执行动作a后系统的实际能耗;/>表示系统所需要的数据传输率;/>表示惩罚因子,当任务在最大传输容忍时间内完成传输时/>,若传输超时/>设为常数,且/>;/>为折扣因子,/>。
进一步的,对层次凝聚聚类算法进行改进,得改进后的层次凝聚聚类算法,包括:
a、将每个推理任务视为一个聚类,初始化聚类质心。
b、遍历所有聚类,利用欧几里得距离公式计算聚类之间的特征距离,其表达式如下:
,
其中,为聚类/>之间的特征距离;/>分别表示聚类/>和/>在第/>维的坐标,/>为维度数量。
c、搜寻孤立的聚类,计算相邻聚类间的特征距离并排序,得到最小相邻特征距离。
d、合并相邻特征距离最小的两个聚类,得到一个新的聚类。
e、重复步骤c~d,直至合并的聚类数量占初始聚类数量的设定比例时,聚类算法迭代结束,得到改进后的层次凝聚聚类算法。
进一步的,当存在两个及以上相同的最小相邻特征距离时,计算聚类之间的相对距离,选取相对距离小的聚类作为相邻特征距离最小的聚类,相对距离的表达式如下:
,
其中,表示两个聚类之间的相对距离,/>为聚类/>之间的特征距离,/>表示该聚类中元素的数量。
进一步的,同一任务簇内的推理任务选择关联的异构边缘服务器相同。
进一步的,基于元学习的Actor-Critic网络的构建方法,包括:
所述Actor-Critic网络包括两个控制器,其分别为高级控制器和低级控制器,所述高级控制器用于生成基于元学习的目标,低级控制器用于根据高级控制器所生成的目标执行动作。
在每个控制器中,Actor网络根据当前状态输出策略/>,所述策略/>即为动作/>,Critic网络通过计算状态动作对/>的长期奖励对策略/>进行评估。
策略的评估采用策略价值函数、动作价值函数和优势函数,其表达式如下:
,
,
,
其中,为状态/>下执行策略/>的策略价值,/>为/>时刻的奖励值,/>为状态/>下执行策略/>的策略价值,/>为状态/>下输出动作/>产生的动作价值,/>为状态/>下输出动作/>时的即时奖励,/>为折扣因子,/>;/>为状态/>下输出动作/>的优势。
进一步的,根据任务簇的聚类结果利用Actor-Critic网络对异构边缘服务器进行交互训练,更新Actor-Critic网络的参数,得到训练完成的异构边缘服务器,即为智能体,包括:
S1、Actor-Critic网络向异构边缘服务器发送当前物联网设备与关联异构边缘服务器的连接状态;
S2、异构边缘服务器根据当前连接状态和其分配给物联网设备的发射功率作出动作决策;
S3、更新Actor-Critic网络的参数;
S4、重复步骤S1~S3,直至达到设定的迭代次数,交互训练结束,异构边缘服务器下载网络参数和训练完成的经验池,成为智能体。
更新Actor-Critic网络的参数包括:
利用时间误差更新Critic网络的参数,其表达式如下:
,
其中,为Critic网络的参数,/>为状态/>下输出动作/>时的即时奖励,/>为折扣因子,/>;/>为状态/>下输出动作/>产生的动作价值,/>为状态/>下输出动作/>产生的动作价值,/>为Actor网络的参数。
0036.Actor网络的参数采用Critic网络的值函数的策略梯度进行更新,其表达式如下:
,
其中,为参数/>的梯度更新,/>为深度神经网络参数,/>为状态/>下输出动作的优势。
进一步的,智能体利用Actor-Critic网络调整资源分配,物联网设备获得分配功率,并与智能体协同处理异构推理任务,包括:
智能体根据网络环境变化,获取当前状态,并将其输入Actor-Critic网络;
Actor-Critic网络输出得到物联网设备与该智能体的连接状态以及该智能体分配给物联网设备的发射功率,同时计算所能获得的奖励值,并将其发送给物联网设备;
物联网设备接收到其与智能体的连接状态,并获得分配的发射功率,同智能体协同处理推理任务。
与现有技术相比,本发明所达到的有益效果:
本发明面向移动边缘网络场景,对物联网设备产生的多个并行异构推理任务进行边端协同处理,基于改进的层次凝聚聚类算法对推理任务进行聚类,同时在深度强化学习过程中引入元学习,在新环境中找到高效的学习策略,实现在满足推理任务不同需求的同时最大化系统的资源利用率;
本发明通过搜寻孤立聚类,计算相邻聚类之间的特征距离,对层次凝聚聚类算法进行改进,可大大降低状态空间矩阵的维度,同时保证聚类结果的准确性,从而有效提高聚类效率;
本发明将元学习引入深度强化学习中,在充分发挥深度强化学习感知决策能力的基础上,利用元学习可以在新网络环境中快速学习并达到较好效果的表面,从而提高学习效率,加速适应动态变化的网络环境。
附图说明
图1为本发明的一种实施例中面向异构推理任务的边端协同系统的结构示意图;
图2为本发明的一种实施例中面向异构推理任务的资源分配方法的流程示意图;
图3为本发明的一种实施例中面向异构推理任务的资源分配方法的框架示意图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
实施例1:
如图1所示,本发明实施例提供一种面向异构推理任务的边端协同系统,系统可以涵盖智慧交通、智能工厂等多个应用场景,其包括终端设备层和边缘服务器层。终端设备层包含智能手机、移动车辆、机械臂等多个物联网设备,边缘服务器层包括多个异构边缘服务器。
每个物联网设备负责由单个深度学习模型组成的异构推理任务,异构边缘服务器与物联网设备协同完成异构推理任务。
预设区域内有I个物联网设备,M个异构边缘服务器,物联网设备的集合为,每个物联网设备/>产生连续的多个推理任务/>,边端协同系统中产生的总任务集合为/>,异构边缘服务器的集合为/>。
实施例2:
如图2~图3所示,基于实施例1提供的边端协同系统,本实施例提供一种面向异构推理任务的资源分配方法,其包括以下步骤:
步骤1、建模移动边缘计算网络环境:
在t时刻,异构边缘服务器与物联网设备/>之间的连接用决策变量/>来表示:
当物联网设备上产生的推理任务与异构边缘服务器/>的计算资源相同时,/>时,同时表示物联网设备/>与异构边缘服务器/>连接;
当物联网设备上产生的推理任务与异构边缘服务器/>的计算资源不同时,/>时,同时表示两者没有连接。
从物联网设备到边缘服务器/>之间可实现的上行链路最大数据传输速率可表示为:
,
其中,为物联网设备/>到边缘服务器/>之间可实现的上行链路最大数据传输速率,/>表示分配给物联网设备/>的链路带宽资源,/>为物联网设备/>到异构边缘服务器/>的信噪比,其可表示为
,
其中,表示物联网设备/>与异构边缘服务器/>的信道增益,/>表示在t时刻异构边缘服务器/>分配给物联网设备/>的发射功率,/>表示加性高斯白噪声的方差。
步骤2、考虑到推理任务对资源需求的不同,以及异构边缘服务器的异构性,根据边端协同系统的资源分配优化问题构建优化目标函数:
在移动边缘计算网络环境模型中,时间内,系统中的总能量消耗表示为
,
其中,为系统的总能量消耗,/>为系统中的异构边缘服务器数量,/>为系统中的物联网设备数量,/>为在t时刻异构边缘服务器/>与物联网设备/>之间的连接用决策变量,表示在t时刻异构边缘服务器/>分配给物联网设备/>的发射功率,/>是在t时刻系统中异构边缘服务器的静态功率值。
在时间内,边端协同系统中所需要的数据传输速率/>可表示为
,
其中,是在t时刻物联网设备/>与异构边缘服务器/>的数据传输速率,/>为系统中的物联网设备数量。
边端协同系统的能量效率可表示为:
,
其中,为边端协同系统的能量效率,/>为边端协同系统中所需要的数据传输速率,/>为边端协同系统中的总能量消耗。
构建边端协同系统的优化目标函数,其表达式为:
,
,
,
,
,
,
其中,为优化目标函数,表示最大化系统的资源利用率;优化目标函数的优化变量为S和P,分别表示异构边缘服务器/>与物联网设备/>之间的连接决策、异构边缘服务器/>给物联网设备/>产生的推理任务分配的功率,具体表示为/>,/>;
C1表示保证有异构边缘服务器为物联网设备分配相应的计算资源,其中,为系统中的异构边缘服务器数量,/>表示在t时刻物联网设备/>与异构边缘服务器/>连接;
C2表示物联网设备的发射功率约束条件,其中,为为物联网设备的最大功率;
C3表示物联网设备和异构边缘服务器间的信噪比应大于系统设定的最小信噪比值,其中,为物联网设备/>到异构边缘服务器/>的信噪比,/>为系统设定的最小信噪比;
C4表示推理任务应该在最大传输容忍时间内完成传输,其中,为在t时刻第/>个物联网设备与第/>个异构边缘服务器的数据传输速率,/>为在t时刻异构边缘服务器/>分配给物联网设备/>的链路带宽资源,/>为系统最大传输容忍时间;
C5表示物联网设备与异构边缘服务器的数据插传输速率不超过其最大数据传输速率,其中,为物联网设备与异构边缘服务器之间可实现的上行链路最大数据传输速率。
步骤3、将优化目标函数转换为马尔科夫决策问题模型:
马尔科夫决策问题模型的五元组建模为,其中/>代表系统状态空间;/>表示为动作空间;/>表示在执行动作a后从状态/>到/>的转移状态概率;/>是奖励函数,基于当前状态s时采取动作a的即时奖励可表示为/>;表示折扣因子;结合长期奖励和折扣因子的回报可表示为:
,
其中,为状态值函数,/>为第/>时刻的即时奖励值,/>表示折扣因子,为常数。
马尔科夫决策模型的目标是找到最优策略来使得状态值函数最大化。
结合本发明中构建的移动边缘计算网络环境模型,状态空间包括异构边缘服务器与物联网设备/>的连接决策以及每个异构边缘服务器的总功率,数学描述为;动作空间定义为异构边缘服务器/>分配给物联网设备的功率,数学描述为。
为了指导异构边缘服务器合理学习资源分配的策略方案,奖励函数的设置必须在充分考虑系统优化函数的条件下,因此系统的奖励函数定义为
,
其中,表示系统的奖励函数,/>表示为在执行动作a后系统的实际能耗;/>表示系统所需要的数据传输率;/>表示惩罚因子,当任务在最大传输容忍时间内完成传输时/>,如果传输超时/>设为常数,且/>。
步骤4、改进层次凝聚聚类算法,并利用其对推理任务进行处理:
每个异构推理任务的属性被描述为/>,其中/>表示输入数据的大小,/>表示该推理任务所需要的计算能力(CPU周期/位),/>表示该推理任务的深度神经网络模型分割点,/>表示其最大传输容忍时延。将推理任务集合/>中的每一个推理任务视为一个聚类,初始化聚类质心。
对层次凝聚聚类算法的改进包括:
遍历所有聚类,利用欧几里得距离公式计算聚类之间的特征距离,其表达式如下:
,
其中,为聚类/>之间的特征距离;/>分别表示聚类/>和/>在第j维的坐标;/>为维度数量。
搜寻孤立的聚类,计算相邻聚类间的特征距离并排序,得到最小相邻特征距离。
当存在两个及以上相同的最小相邻特征距离时,计算聚类之间的相对距离,选取相对距离小的聚类作为相邻特征距离最小的聚类,相对距离的表达式如下:
,
其中,表示两个聚类之间的相对距离,m表示该聚类中元素的数量。
合并相邻特征距离最小的两个聚类,得到一个新的聚类,重新计算新的聚类与相邻聚类之间的距离,进行排序后选择两者中的最小值,合并得到新的聚类,如此重复。
当合并的类的数量是初始类数量的5%时,聚类算法迭代结束,如果不满足则重复上述步骤直到满足迭代终止条件,得到改进后的层次凝聚聚类算法。
通过使用改进的层次凝聚聚类算反将推理任务聚类成不同的任务簇,基于聚类结果,同一任务簇内的推理任务选择关联的异构边缘服务器相同,从而有效减小状态空间的维度。
步骤5、在深度强化学习中引入元学习(Meta-Learning),根据马尔可夫决策模型构建基于元学习的Actor-Critic网络:
Actor网络采用卷积神经网络作为基础结构,根据输入状态进行前向传播,输出可能采取动作的概率分布;Critic网络同样采用卷积神经网络作为基础结构,输入当前状态,基于此输出对当前状态的价值估计。
如图3所示,构建基于Meta-Learning的Actor-Critic网络包括两个控制器:高级控制器和低级控制器,在每个控制器中都包含Actor-Critic网络,其中高级控制器用于生成Meta-Learning的目标指南,低级控制器用于特定执行。
在每个控制器中,通过Actor-Critic网络来决定最优动作,具体来说Actor网络会根据当前状态输出动作/>,Critic网络通过计算状态动作对/>的长期奖励来评估策略/>,具体地,在Critic网络中使用策略价值函数和动作价值函数来对策略/>进行评估,其中策略价值函数和动作价值函数的数学表述如下:
,
,
其中,是在/>状态下执行策略/>之后的策略价值,/>为第t个时隙的奖励值,为/>状态下的策略价值;
为状态/>下,采取动作/>产生的动作价值,/>是状态/>下,采取动作/>时的即时奖励,/>表示折扣因子;
通过优势函数来评估当前动作值相对于策略价值的差,即在/>状态下,采取动作/>的优势,其表示形式如下:
。
步骤6:利用Actor-Critic网络对异构边缘服务器进行交互训练,并更新Actor-Critic网络的参数:
利用时间(TD)误差更新Critic网络的参数,参数的更新过程表示为
,
其中,为Critic网络的参数,/>为/>状态下,采取动作/>时的即时奖励,/>表示折扣因子,/>为状态/>下采取动作产生的动作价值,/>为Actor网络在状态/>下选择的动作,/>状态/>下,采取动作/>产生的动作价值,/>表示Actor网络的参数;
Actor网络使用Critic网络值函数的策略梯度来更新参数,参数/>的梯度更新表示为:
,
其中,为参数/>的梯度更新,/>为深度神经网络参数,/>为在/>状态下采取/>动作的优势。
在每个训练时期,网络向异构边缘服务器发送当前物联网设备与关联异构边缘服务器的连接状态(当前物联网设备关联的异构边缘服务器由任务簇聚类结果决定)智能体根据当前连接状态和从边缘服务器分配的发射功率做出动作决策。
不断更新Actor-Critic网络参数,直至达到设定的迭代次数,交互训练结束,异构边缘服务器下载网络参数和训练完成的经验池,成为智能体。
步骤7、智能体感知网络环境的变化,获取当前状态,输入到Actor-Critic网络。
Actor-Critic网络输出物联网设备与智能体的连接状态以及分配功率大小,同时计算所能获得的奖励值,并将其发送给物联网设备。
物联网设备接收到其与智能体的连接状态以及获得分配功率,同智能体协同处理推理任务。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (3)
1.一种面向异构推理任务的边端协同系统,其特征在于,包括终端设备层和边缘服务器层;
所述终端设备层包括多个物联网设备,每个所述物联网设备用于负责由单个深度学习模型组成的异构推理任务;
所述边缘服务器层包括多个异构边缘服务器,所述异构边缘服务器与物联网设备协作完成异构推理任务;
应用于所述面向异构推理任务的边端协同系统中的资源分配方法包括以下步骤:
对移动边缘计算网络环境进行建模,得到移动边缘计算网络环境模型,包括:预设系统中物联网设备的集合为,物联网设备/>产生连续的多个推理任务/>,系统中产生的推理任务集合为/>,异构边缘服务器的集合为/>;
在t时刻,异构边缘服务器与物联网设备/>之间的连接用决策变量/>表示:当物联网设备上产生的多个异构推理任务所需资源与异构边缘服务器/>的计算资源相同时,,其表示物联网设备/>与异构边缘服务器/>连接;
当物联网设备上产生的多个异构推理任务所需资源与异构边缘服务器/>的计算资源不同时,/>,其表示物联网设备/>与异构边缘服务器/>没有连接;
将物联网设备与异构边缘服务器/>之间可实现的上行链路最大数据传输速率/>表示为:
,
其中,表示分配给物联网设备/>的链路带宽资源,/>为物联网设备/>到异构边缘服务器的信噪比,其表达式为:
,
其中,表示物联网设备/>与异构边缘服务器/>的信道增益,/>表示在t时隙内异构边缘服务器/>分配给物联网设备/>的发射功率,/>表示加性高斯白噪声的方差;
在移动边缘计算网络环境模型中根据边端协同系统中的资源分配优化问题,构建优化目标函数,包括:
在移动边缘计算网络环境模型中,时间内,系统中的总能量消耗表示为:
,
其中,为系统的总能量消耗,/>为系统中的异构边缘服务器数量,/>为系统中的物联网设备数量,/>为在t时刻异构边缘服务器/>与物联网设备/>之间的连接用决策变量,/>表示在t时刻异构边缘服务器/>分配给物联网设备/>的发射功率,/>是在t时刻系统中异构边缘服务器的静态功率值;
在时间内,系统中所需要的数据传输速率/>表示为:
,
其中,是在t时刻物联网设备/>与异构边缘服务器/>的数据传输速率,/>为系统中的物联网设备数量;
系统的能量效率表示为:
,
其中,为边端协同系统的能量效率,/>为边端协同系统中所需要的数据传输速率,/>为边端协同系统中的总能量消耗;
构建边端协同系统的优化目标函数,其表达式为:
,
,
,
,
,
,
其中,为优化目标函数,表示最大化系统的资源利用率;S、P为优化目标函数的优化变量,/>表示异构边缘服务器/>与物联网设备/>之间的连接决策,/>表示异构边缘服务器/>给物联网设备/>产生的推理任务分配的功率;
C1表示保证有异构边缘服务器为物联网设备分配相应的计算资源,其中,为系统中的异构边缘服务器数量,/>表示在t时刻物联网设备/>与异构边缘服务器/>连接;
C2表示物联网设备的发射功率约束条件,其中,为物联网设备的最大功率;
C3表示物联网设备和异构边缘服务器间的信噪比应大于系统设定的最小信噪比值,其中,为物联网设备/>到异构边缘服务器/>的信噪比,/>为系统设定的最小信噪比;
C4表示推理任务应该在最大传输容忍时间内完成传输,其中,为在t时刻物联网设备/>与异构边缘服务器/>的数据传输速率,/>为在t时刻异构边缘服务器/>分配给物联网设备/>的链路带宽资源,/>为系统最大传输容忍时间;
C5表示物联网设备与异构边缘服务器/>的数据插传输速率不超过其最大数据传输速率,其中,/>为物联网设备/>与异构边缘服务器/>之间可实现的上行链路最大数据传输速率;
将优化目标函数转换为马尔可夫决策问题模型,所述马尔可夫决策问题模型的五元组建模为;
其中,为状态空间,其表示为异构边缘服务器/>与物联网设备/>的连接决策以及每个异构边缘服务器的总功率,/>;
为动作空间,其表示为异构边缘服务器/>分配给物联网设备的功率,/>;
为执行动作a后从状态/>到/>的转移状态概率,/>;
为系统的奖励函数,其表达式如下:
,
其中,表示系统的奖励函数,/>表示为在执行动作a后系统的实际能耗;/>表示系统所需要的数据传输率;/>表示惩罚因子,当任务在最大传输容忍时间内完成传输时/>,若传输超时,则/>设为常数,且/>;
为折扣因子,/>;
对层次凝聚聚类算法进行改进,得改进后的层次凝聚聚类算法,包括:
a、将每个推理任务视为一个聚类,初始化聚类质心;
b、遍历所有聚类,利用欧几里得距离公式计算聚类之间的特征距离,其表达式如下:
,
其中,为聚类/>之间的特征距离;/>分别表示聚类/>和/>在第/>维的坐标,/>为维度数量;
c、搜寻孤立的聚类,计算相邻聚类间的特征距离并排序,得到最小相邻特征距离;
d、合并相邻特征距离最小的两个聚类,得到一个新的聚类;
e、重复步骤c~d,直至合并的聚类数量占初始聚类数量的设定比例时,聚类算法迭代结束,得到改进后的层次凝聚聚类算法;
利用改进后的层次凝聚聚类算法将推理任务聚类成不同的任务簇,得任务簇的聚类结果;
根据马尔可夫决策问题模型构建基于元学习的Actor-Critic网络,基于元学习的Actor-Critic网络的构建方法,包括:
所述Actor-Critic网络包括两个控制器,其分别为高级控制器和低级控制器,所述高级控制器用于生成基于元学习的目标,低级控制器用于根据高级控制器所生成的目标执行动作;
在每个控制器中,Actor网络根据当前状态输出策略/>,所述策略/>即为动作/>,Critic网络通过计算状态动作对/>的长期奖励对策略/>进行评估;
策略的评估采用策略价值函数、动作价值函数和优势函数,其表达式如下:
,
,
,
其中,为状态/>下执行策略/>的策略价值,/>为第/>个时隙的奖励值,/>为状态/>下执行策略/>的策略价值,/>为状态/>下输出动作/>产生的动作价值,/>为状态/>下输出动作/>时的即时奖励,/>为折扣因子,/>;/>为状态/>下输出动作/>的优势;
根据任务簇的聚类结果利用Actor-Critic网络对异构边缘服务器进行交互训练,并更新Actor-Critic网络的参数,得到训练完成的异构边缘服务器,即为智能体,包括:
S1、Actor-Critic网络向异构边缘服务器发送当前物联网设备与关联异构边缘服务器的连接状态;
S2、异构边缘服务器根据当前连接状态和其分配给物联网设备的发射功率作出动作决策;
S3、更新Actor-Critic网络的参数;
S4、重复步骤S1~S3,直至达到设定的迭代次数,交互训练结束,异构边缘服务器下载网络参数和训练完成的经验池,成为智能体;
更新Actor-Critic网络的参数包括:
利用时间误差更新Critic网络的参数,其表达式如下:
,
其中,为Critic网络的参数,/>为状态/>下输出动作/>时的即时奖励,/>为折扣因子,;/>为状态/>下输出动作/>产生的动作价值,/>为状态/>下输出动作/>产生的动作价值,/>为Actor网络的参数;
Actor网络的参数采用Critic网络的值函数的策略梯度进行更新,其表达式如下:
,
其中,为参数/>的梯度更新,/>为深度神经网络参数,/>为状态/>下输出动作/>的优势;
智能体利用Actor-Critic网络调整资源分配,物联网设备获得分配功率,并与智能体协同处理异构推理任务,包括:
智能体根据网络环境变化,获取当前状态,并将其输入Actor-Critic网络;
Actor-Critic网络输出得到物联网设备与该智能体的连接状态以及该智能体分配给物联网设备的发射功率,同时计算所能获得的奖励值,并将其发送给物联网设备;
物联网设备接收到其与智能体的连接状态,并获得分配的发射功率,同智能体协同处理推理任务。
2.根据权利要求1所述的面向异构推理任务的资源分配方法,其特征在于,当存在两个及以上相同的最小相邻特征距离时,计算聚类之间的相对距离,选取相对距离小的聚类作为相邻特征距离最小的聚类,相对距离的表达式如下:
,
其中,表示两个聚类之间的相对距离,/>为聚类/>之间的特征距离,/>表示该聚类中元素的数量。
3.根据权利要求1所述的面向异构推理任务的资源分配方法,其特征在于,同一任务簇内的推理任务选择关联的异构边缘服务器相同。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410026413.0A CN117539640B (zh) | 2024-01-09 | 2024-01-09 | 一种面向异构推理任务的边端协同系统及资源分配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410026413.0A CN117539640B (zh) | 2024-01-09 | 2024-01-09 | 一种面向异构推理任务的边端协同系统及资源分配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117539640A CN117539640A (zh) | 2024-02-09 |
CN117539640B true CN117539640B (zh) | 2024-03-26 |
Family
ID=89794237
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410026413.0A Active CN117539640B (zh) | 2024-01-09 | 2024-01-09 | 一种面向异构推理任务的边端协同系统及资源分配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117539640B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116156563A (zh) * | 2023-01-31 | 2023-05-23 | 中国科学院沈阳自动化研究所 | 基于数字孪生的异构任务与资源端边协同调度方法 |
CN117436485A (zh) * | 2023-10-11 | 2024-01-23 | 天津大学 | 基于权衡时延和精度的多退出点的端-边-云协同系统及方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112381146B (zh) * | 2020-11-16 | 2024-05-21 | 海南省电力学校(海南省电力技工学校) | 虚拟电厂下的分布式资源自组织聚合与协同控制方法 |
-
2024
- 2024-01-09 CN CN202410026413.0A patent/CN117539640B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116156563A (zh) * | 2023-01-31 | 2023-05-23 | 中国科学院沈阳自动化研究所 | 基于数字孪生的异构任务与资源端边协同调度方法 |
CN117436485A (zh) * | 2023-10-11 | 2024-01-23 | 天津大学 | 基于权衡时延和精度的多退出点的端-边-云协同系统及方法 |
Non-Patent Citations (1)
Title |
---|
非正交多址接入系统中基于受限马尔科夫决策过程的网络切片虚拟资源分配算法;唐伦;施颖洁;杨希希;陈前斌;;电子与信息学报;20181215(第12期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117539640A (zh) | 2024-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Dependent task offloading for edge computing based on deep reinforcement learning | |
CN109753751B (zh) | 一种基于机器学习的mec随机任务迁移方法 | |
Jiang et al. | Distributed resource scheduling for large-scale MEC systems: A multiagent ensemble deep reinforcement learning with imitation acceleration | |
CN110798849A (zh) | 一种超密网边缘计算的计算资源分配与任务卸载方法 | |
CN114650228B (zh) | 一种异构网络中基于计算卸载的联邦学习调度方法 | |
Abouaomar et al. | Federated deep reinforcement learning for open ran slicing in 6g networks | |
CN112788605B (zh) | 基于双延迟深度确定性策略边缘计算资源调度方法和系统 | |
CN113469325A (zh) | 一种边缘聚合间隔自适应控制的分层联邦学习方法、计算机设备、存储介质 | |
CN114885420A (zh) | 一种noma-mec系统中的用户分组和资源分配方法及装置 | |
CN115277689A (zh) | 一种基于分布式联邦学习的云边网络通信优化方法及系统 | |
Ebrahim et al. | A deep learning approach for task offloading in multi-UAV aided mobile edge computing | |
CN116112981B (zh) | 一种基于边缘计算的无人机任务卸载方法 | |
Li et al. | Task computation offloading for multi-access edge computing via attention communication deep reinforcement learning | |
CN114615744A (zh) | 一种知识迁移强化学习网络切片通感算资源协同优化方法 | |
Zhang et al. | A deep reinforcement learning approach for online computation offloading in mobile edge computing | |
CN114554495B (zh) | 一种面向联邦学习的用户调度和资源分配方法 | |
Chen et al. | Joint optimization of task offloading and resource allocation via deep reinforcement learning for augmented reality in mobile edge network | |
Qu et al. | Stochastic cumulative DNN inference with RL-aided adaptive IoT device-edge collaboration | |
Heidarpour et al. | Soft actor–critic-based computation offloading in multiuser MEC-enabled IoT—a lifetime maximization perspective | |
Liu et al. | Joint Optimization of Multiuser Computation Offloading and Wireless-Caching Resource Allocation With Linearly Related Requests in Vehicular Edge Computing System | |
Shi et al. | Energy-efficient UAV-enabled computation offloading for industrial internet of things: a deep reinforcement learning approach | |
CN117858109A (zh) | 基于数字孪生的用户关联、任务卸载和资源分配优化方法 | |
CN117749796A (zh) | 一种云边算力网络系统计算卸载方法及系统 | |
CN117436485A (zh) | 基于权衡时延和精度的多退出点的端-边-云协同系统及方法 | |
CN117539640B (zh) | 一种面向异构推理任务的边端协同系统及资源分配方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |