CN117539640B

CN117539640B - 一种面向异构推理任务的边端协同系统及资源分配方法

Info

Publication number: CN117539640B
Application number: CN202410026413.0A
Authority: CN
Inventors: 郭永安; 齐帅; 王宇翱; 白晨浩
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2024-01-09
Filing date: 2024-01-09
Publication date: 2024-03-26
Anticipated expiration: 2044-01-09
Also published as: CN117539640A

Abstract

本发明公开了一种边缘技术领域的面向异构推理任务的边端协同系统及资源分配方法，旨在解决现有技术中异构边缘服务器无法为异构推理任务进行合理、高效的资源分配等问题，边端协同系统包括终端设备层和边缘服务器层，终端设备层包括多个物联网设备，边缘服务器层包括多个异构边缘服务器，以及应用于边端协同系统的资源分配方法。本发明对物联网设备产生的多个并行异构推理任务进行边端协同处理，实现在满足推理任务不同需求的同时最大化系统的资源利用率。

Description

一种面向异构推理任务的边端协同系统及资源分配方法

技术领域

本发明涉及一种面向异构推理任务的边端协同系统及资源分配方法，属于边缘计算技术领域。

背景技术

区别于传统的云计算，移动边缘计算技术的出现使得各种应用程序可以部署在终端设备或附近的服务器，而不必全部上传到远程云上。在边缘网络上进行任务的处理不仅降低用户隐私泄漏的风险，而且有助于减少任务处理时延，进而提高服务质量。但是，与云服务器相比，边缘服务器的计算资源有限，难以为大量用户提供无限服务，并且不同的边缘服务器可为用户提供的资源是异构的。

在现实场景中，终端设备产生多个异构DNN（Deep Neural Networks，深度神经网络）推理任务，不同推理任务通常具有不同的延迟等待时间和QoS（Quality of Service，服务质量）要求，因而这些异构推理任务对计算和存储等资源的需求不同。异构任务并行接入要求充分利用不同类型的计算资源，如果任务之间的资源利用不均衡，可能导致某些计算资源空闲，而其他资源超负荷。因而，在移动边缘计算中，异构边缘服务器为异构推理任务进行合理、高效的资源分配仍然是提升资源利用率和提高QoS亟待解决的问题。

在现有研究中，多数未考虑推理任务的异构性，且在考虑异构任务的研究中，使用聚类算法对异构任务进行聚类时，由于算法本身计算复杂度太高，尤其当样本数量较多时就会消耗大量时间，对奇异值也会造成很大干扰，影响聚类结果的准确性，降低算法效率。

同时现有的资源分配方法多采用基于启发式的算法和基于深度强化学习的方法，然而，基于启发式的算法不能根据环境的动态变化适时制定资源分配方案，基于深度强化学习方法的资源分配方案会因为高维度问题导致收敛速度慢、探索效果差；并且因为训练样本少以及网络环境的快速变化导致学习效率降低。

发明内容

本发明的目的在于克服现有技术中的不足，提供一种面向异构推理任务的边端协同系统及资源分配方法，对物联网设备产生的多个并行异构推理任务进行边端协同处理，实现在满足推理任务不同需求的同时最大化系统的资源利用率。

为达到上述目的，本发明是采用下述技术方案实现的：

一方面，本申请提供一种面向异构推理任务的边端协同系统，包括终端设备层和边缘服务器层。

所述终端设备层包括多个物联网设备，每个所述物联网设备用于负责由单个深度学习模型组成的异构推理任务。

所述边缘服务器层包括多个异构边缘服务器，所述异构边缘服务器与物联网设备协作完成异构推理任务。

另一方面，本申请提供一种面向异构推理任务的资源分配方法，应用于上述边端协同系统中。

所述面向异构推理任务的资源分配方法包括以下步骤：

对移动边缘计算网络环境进行建模，得到移动边缘计算网络环境模型；

在移动边缘计算网络环境模型中根据边端协同系统中的资源分配优化问题，构建优化目标函数；

将优化目标函数转换为马尔可夫决策问题模型；

对层次凝聚聚类算法进行改进，得改进后的层次凝聚聚类算法；

利用改进后的层次凝聚聚类算法将推理任务聚类成不同的任务簇，得任务簇的分类结果；

根据马尔科夫决策问题模型构建基于元学习的Actor-Critic网络；

根据任务簇的分类结果利用Actor-Critic网络对异构边缘服务器进行交互训练，并更新Actor-Critic网络的参数，得到训练完成的异构边缘服务器，即为智能体；

智能体利用Actor-Critic网络调整资源分配，物联网设备获得分配功率，并与智能体协同处理异构推理任务。

进一步的，对移动边缘计算网络环境进行建模，得到移动边缘计算网络环境模型，包括：

预设系统中物联网设备的集合为，物联网设备/>产生连续的多个推理任务/>，系统中产生的推理任务集合为/>，异构边缘服务器的集合为/>；

在t时刻，异构边缘服务器与物联网设备/>之间的连接用决策变量/>表示：

当物联网设备上产生的多个异构推理任务所需资源与异构边缘服务器/>的计算资源相同时，/>，其表示物联网设备/>与异构边缘服务器/>连接；

当物联网设备上产生的多个异构推理任务所需资源与异构边缘服务器/>的计算资源不同时，/>，其表示物联网设备/>与异构边缘服务器/>没有连接。

将物联网设备与异构边缘服务器/>之间可实现的上行链路最大数据传输速率表示为：

，

其中，表示分配给物联网设备/>的链路带宽资源，/>为物联网设备/>到异构边缘服务器/>的信噪比，其表达式为：

，

其中，表示物联网设备/>与异构边缘服务器/>的信道增益，/>表示在t时隙内异构边缘服务器/>分配给物联网设备/>的发射功率，/>表示加性高斯白噪声的方差。

进一步的，在移动边缘计算网络环境模型中根据边端协同系统中的资源分配优化问题，构建优化目标函数，包括：

在移动边缘计算网络环境模型中，时间内，系统中的总能量消耗表示为：

，

其中，为系统的总能量消耗，/>为系统中的异构边缘服务器数量，/>为系统中的物联网设备数量，/>为在t时刻异构边缘服务器/>与物联网设备/>之间的连接用决策变量，表示在t时刻异构边缘服务器/>分配给物联网设备/>的发射功率，/>是在t时刻系统中异构边缘服务器的静态功率值。

在时间内，系统中所需要的数据传输速率/>表示为：

，

其中，是在t时刻物联网设备/>与异构边缘服务器/>的数据传输速率，/>为系统中的物联网设备数量。

系统的能量效率表示为：

，

其中，为边端协同系统的能量效率，/>为边端协同系统中所需要的数据传输速率，/>为边端协同系统中的总能量消耗。

构建边端协同系统的优化目标函数，其表达式为：

，

其中，为优化目标函数，表示最大化系统的资源利用率；S、P为优化目标函数的优化变量，/>表示异构边缘服务器/>与物联网设备/>之间的连接决策，/>表示异构边缘服务器/>给物联网设备/>产生的推理任务分配的功率。

C1表示保证有异构边缘服务器为物联网设备分配相应的计算资源，其中，为系统中的异构边缘服务器数量，/>表示在t时刻物联网设备/>与异构边缘服务器/>连接。

C2表示物联网设备的发射功率约束条件，其中，为物联网设备的最大功率。

C3表示物联网设备和异构边缘服务器间的信噪比应大于系统设定的最小信噪比值，其中，为物联网设备/>到异构边缘服务器/>的信噪比，/>为系统设定的最小信噪比。

C4表示推理任务应该在最大传输容忍时间内完成传输，其中，为在t时刻物联网设备/>与异构边缘服务器/>的数据传输速率，/>为在t时刻异构边缘服务器/>分配给物联网设备/>的链路带宽资源，/>为系统最大传输容忍时间。

C5表示物联网设备与异构边缘服务器/>的数据插传输速率不超过其最大数据传输速率，其中，/>为物联网设备/>与异构边缘服务器/>之间可实现的上行链路最大数据传输速率。

进一步的，所述马尔科夫决策问题模型的五元组建模为；

其中，为状态空间，其表示为异构边缘服务器/>与物联网设备/>的连接决策以及每个异构边缘服务器的总功率，/>；/>为动作空间，其表示为异构边缘服务器/>分配给物联网设备的功率，/>；/>为执行动作a后从状态/>到/>的转移状态概率，；/>为系统的奖励函数，其表达式如下：

，

其中，表示系统的奖励函数，/>表示为在执行动作a后系统的实际能耗；/>表示系统所需要的数据传输率；/>表示惩罚因子，当任务在最大传输容忍时间内完成传输时/>，若传输超时/>设为常数，且/>；/>为折扣因子，/>。

进一步的，对层次凝聚聚类算法进行改进，得改进后的层次凝聚聚类算法，包括：

a、将每个推理任务视为一个聚类，初始化聚类质心。

b、遍历所有聚类，利用欧几里得距离公式计算聚类之间的特征距离，其表达式如下：

，

其中，为聚类/>之间的特征距离；/>分别表示聚类/>和/>在第/>维的坐标，/>为维度数量。

c、搜寻孤立的聚类，计算相邻聚类间的特征距离并排序，得到最小相邻特征距离。

d、合并相邻特征距离最小的两个聚类，得到一个新的聚类。

e、重复步骤c~d，直至合并的聚类数量占初始聚类数量的设定比例时，聚类算法迭代结束，得到改进后的层次凝聚聚类算法。

进一步的，当存在两个及以上相同的最小相邻特征距离时，计算聚类之间的相对距离，选取相对距离小的聚类作为相邻特征距离最小的聚类，相对距离的表达式如下：

，

其中，表示两个聚类之间的相对距离，/>为聚类/>之间的特征距离，/>表示该聚类中元素的数量。

进一步的，同一任务簇内的推理任务选择关联的异构边缘服务器相同。

进一步的，基于元学习的Actor-Critic网络的构建方法，包括：

所述Actor-Critic网络包括两个控制器，其分别为高级控制器和低级控制器，所述高级控制器用于生成基于元学习的目标，低级控制器用于根据高级控制器所生成的目标执行动作。

在每个控制器中，Actor网络根据当前状态输出策略/>，所述策略/>即为动作/>，Critic网络通过计算状态动作对/>的长期奖励对策略/>进行评估。

策略的评估采用策略价值函数、动作价值函数和优势函数，其表达式如下：

，

其中，为状态/>下执行策略/>的策略价值，/>为/>时刻的奖励值，/>为状态/>下执行策略/>的策略价值，/>为状态/>下输出动作/>产生的动作价值，/>为状态/>下输出动作/>时的即时奖励，/>为折扣因子，/>；/>为状态/>下输出动作/>的优势。

进一步的，根据任务簇的聚类结果利用Actor-Critic网络对异构边缘服务器进行交互训练，更新Actor-Critic网络的参数，得到训练完成的异构边缘服务器，即为智能体，包括：

S1、Actor-Critic网络向异构边缘服务器发送当前物联网设备与关联异构边缘服务器的连接状态；

S2、异构边缘服务器根据当前连接状态和其分配给物联网设备的发射功率作出动作决策；

S3、更新Actor-Critic网络的参数；

S4、重复步骤S1~S3，直至达到设定的迭代次数，交互训练结束，异构边缘服务器下载网络参数和训练完成的经验池，成为智能体。

更新Actor-Critic网络的参数包括：

利用时间误差更新Critic网络的参数，其表达式如下：

，

其中，为Critic网络的参数，/>为状态/>下输出动作/>时的即时奖励，/>为折扣因子，/>；/>为状态/>下输出动作/>产生的动作价值，/>为状态/>下输出动作/>产生的动作价值，/>为Actor网络的参数。

0036.Actor网络的参数采用Critic网络的值函数的策略梯度进行更新，其表达式如下：

，

其中，为参数/>的梯度更新，/>为深度神经网络参数，/>为状态/>下输出动作的优势。

进一步的，智能体利用Actor-Critic网络调整资源分配，物联网设备获得分配功率，并与智能体协同处理异构推理任务，包括：

智能体根据网络环境变化，获取当前状态，并将其输入Actor-Critic网络；

Actor-Critic网络输出得到物联网设备与该智能体的连接状态以及该智能体分配给物联网设备的发射功率，同时计算所能获得的奖励值，并将其发送给物联网设备；

物联网设备接收到其与智能体的连接状态，并获得分配的发射功率，同智能体协同处理推理任务。

与现有技术相比，本发明所达到的有益效果：

本发明面向移动边缘网络场景，对物联网设备产生的多个并行异构推理任务进行边端协同处理，基于改进的层次凝聚聚类算法对推理任务进行聚类，同时在深度强化学习过程中引入元学习，在新环境中找到高效的学习策略，实现在满足推理任务不同需求的同时最大化系统的资源利用率；

本发明通过搜寻孤立聚类，计算相邻聚类之间的特征距离，对层次凝聚聚类算法进行改进，可大大降低状态空间矩阵的维度，同时保证聚类结果的准确性，从而有效提高聚类效率；

本发明将元学习引入深度强化学习中，在充分发挥深度强化学习感知决策能力的基础上，利用元学习可以在新网络环境中快速学习并达到较好效果的表面，从而提高学习效率，加速适应动态变化的网络环境。

附图说明

图1为本发明的一种实施例中面向异构推理任务的边端协同系统的结构示意图；

图2为本发明的一种实施例中面向异构推理任务的资源分配方法的流程示意图；

图3为本发明的一种实施例中面向异构推理任务的资源分配方法的框架示意图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例1：

如图1所示，本发明实施例提供一种面向异构推理任务的边端协同系统，系统可以涵盖智慧交通、智能工厂等多个应用场景，其包括终端设备层和边缘服务器层。终端设备层包含智能手机、移动车辆、机械臂等多个物联网设备，边缘服务器层包括多个异构边缘服务器。

每个物联网设备负责由单个深度学习模型组成的异构推理任务，异构边缘服务器与物联网设备协同完成异构推理任务。

预设区域内有I个物联网设备，M个异构边缘服务器，物联网设备的集合为，每个物联网设备/>产生连续的多个推理任务/>，边端协同系统中产生的总任务集合为/>，异构边缘服务器的集合为/>。

实施例2：

如图2~图3所示，基于实施例1提供的边端协同系统，本实施例提供一种面向异构推理任务的资源分配方法，其包括以下步骤：

步骤1、建模移动边缘计算网络环境：

在t时刻，异构边缘服务器与物联网设备/>之间的连接用决策变量/>来表示：

当物联网设备上产生的推理任务与异构边缘服务器/>的计算资源相同时，/>时，同时表示物联网设备/>与异构边缘服务器/>连接；

当物联网设备上产生的推理任务与异构边缘服务器/>的计算资源不同时，/>时，同时表示两者没有连接。

从物联网设备到边缘服务器/>之间可实现的上行链路最大数据传输速率可表示为：

，

其中，为物联网设备/>到边缘服务器/>之间可实现的上行链路最大数据传输速率，/>表示分配给物联网设备/>的链路带宽资源，/>为物联网设备/>到异构边缘服务器/>的信噪比，其可表示为

，

其中，表示物联网设备/>与异构边缘服务器/>的信道增益，/>表示在t时刻异构边缘服务器/>分配给物联网设备/>的发射功率，/>表示加性高斯白噪声的方差。

步骤2、考虑到推理任务对资源需求的不同，以及异构边缘服务器的异构性，根据边端协同系统的资源分配优化问题构建优化目标函数：

在移动边缘计算网络环境模型中，时间内，系统中的总能量消耗表示为

，

在时间内，边端协同系统中所需要的数据传输速率/>可表示为

，

边端协同系统的能量效率可表示为：

，

构建边端协同系统的优化目标函数，其表达式为：

，

其中，为优化目标函数，表示最大化系统的资源利用率；优化目标函数的优化变量为S和P，分别表示异构边缘服务器/>与物联网设备/>之间的连接决策、异构边缘服务器/>给物联网设备/>产生的推理任务分配的功率，具体表示为/>，/>；

C1表示保证有异构边缘服务器为物联网设备分配相应的计算资源，其中，为系统中的异构边缘服务器数量，/>表示在t时刻物联网设备/>与异构边缘服务器/>连接；

C2表示物联网设备的发射功率约束条件，其中，为为物联网设备的最大功率；

C3表示物联网设备和异构边缘服务器间的信噪比应大于系统设定的最小信噪比值，其中，为物联网设备/>到异构边缘服务器/>的信噪比，/>为系统设定的最小信噪比；

C4表示推理任务应该在最大传输容忍时间内完成传输，其中，为在t时刻第/>个物联网设备与第/>个异构边缘服务器的数据传输速率，/>为在t时刻异构边缘服务器/>分配给物联网设备/>的链路带宽资源，/>为系统最大传输容忍时间；

C5表示物联网设备与异构边缘服务器的数据插传输速率不超过其最大数据传输速率，其中，为物联网设备与异构边缘服务器之间可实现的上行链路最大数据传输速率。

步骤3、将优化目标函数转换为马尔科夫决策问题模型：

马尔科夫决策问题模型的五元组建模为，其中/>代表系统状态空间；/>表示为动作空间；/>表示在执行动作a后从状态/>到/>的转移状态概率；/>是奖励函数，基于当前状态s时采取动作a的即时奖励可表示为/>；表示折扣因子；结合长期奖励和折扣因子的回报可表示为：

，

其中，为状态值函数，/>为第/>时刻的即时奖励值，/>表示折扣因子，为常数。

马尔科夫决策模型的目标是找到最优策略来使得状态值函数最大化。

结合本发明中构建的移动边缘计算网络环境模型，状态空间包括异构边缘服务器与物联网设备/>的连接决策以及每个异构边缘服务器的总功率，数学描述为；动作空间定义为异构边缘服务器/>分配给物联网设备的功率，数学描述为。

为了指导异构边缘服务器合理学习资源分配的策略方案，奖励函数的设置必须在充分考虑系统优化函数的条件下，因此系统的奖励函数定义为

，

其中，表示系统的奖励函数，/>表示为在执行动作a后系统的实际能耗；/>表示系统所需要的数据传输率；/>表示惩罚因子，当任务在最大传输容忍时间内完成传输时/>，如果传输超时/>设为常数，且/>。

步骤4、改进层次凝聚聚类算法，并利用其对推理任务进行处理：

每个异构推理任务的属性被描述为/>，其中/>表示输入数据的大小，/>表示该推理任务所需要的计算能力（CPU周期/位），/>表示该推理任务的深度神经网络模型分割点，/>表示其最大传输容忍时延。将推理任务集合/>中的每一个推理任务视为一个聚类，初始化聚类质心。

对层次凝聚聚类算法的改进包括：

遍历所有聚类，利用欧几里得距离公式计算聚类之间的特征距离，其表达式如下：

，

其中，为聚类/>之间的特征距离；/>分别表示聚类/>和/>在第j维的坐标；/>为维度数量。

搜寻孤立的聚类，计算相邻聚类间的特征距离并排序，得到最小相邻特征距离。

当存在两个及以上相同的最小相邻特征距离时，计算聚类之间的相对距离，选取相对距离小的聚类作为相邻特征距离最小的聚类，相对距离的表达式如下：

，

其中，表示两个聚类之间的相对距离，m表示该聚类中元素的数量。

合并相邻特征距离最小的两个聚类，得到一个新的聚类，重新计算新的聚类与相邻聚类之间的距离，进行排序后选择两者中的最小值，合并得到新的聚类，如此重复。

当合并的类的数量是初始类数量的5%时，聚类算法迭代结束，如果不满足则重复上述步骤直到满足迭代终止条件，得到改进后的层次凝聚聚类算法。

通过使用改进的层次凝聚聚类算反将推理任务聚类成不同的任务簇，基于聚类结果，同一任务簇内的推理任务选择关联的异构边缘服务器相同，从而有效减小状态空间的维度。

步骤5、在深度强化学习中引入元学习（Meta-Learning），根据马尔可夫决策模型构建基于元学习的Actor-Critic网络：

Actor网络采用卷积神经网络作为基础结构，根据输入状态进行前向传播，输出可能采取动作的概率分布；Critic网络同样采用卷积神经网络作为基础结构，输入当前状态，基于此输出对当前状态的价值估计。

如图3所示，构建基于Meta-Learning的Actor-Critic网络包括两个控制器：高级控制器和低级控制器，在每个控制器中都包含Actor-Critic网络，其中高级控制器用于生成Meta-Learning的目标指南，低级控制器用于特定执行。

在每个控制器中，通过Actor-Critic网络来决定最优动作，具体来说Actor网络会根据当前状态输出动作/>，Critic网络通过计算状态动作对/>的长期奖励来评估策略/>，具体地，在Critic网络中使用策略价值函数和动作价值函数来对策略/>进行评估，其中策略价值函数和动作价值函数的数学表述如下：

，

其中，是在/>状态下执行策略/>之后的策略价值，/>为第t个时隙的奖励值，为/>状态下的策略价值；

为状态/>下，采取动作/>产生的动作价值，/>是状态/>下，采取动作/>时的即时奖励，/>表示折扣因子；

通过优势函数来评估当前动作值相对于策略价值的差，即在/>状态下，采取动作/>的优势，其表示形式如下：

。

步骤6：利用Actor-Critic网络对异构边缘服务器进行交互训练，并更新Actor-Critic网络的参数：

利用时间（TD）误差更新Critic网络的参数，参数的更新过程表示为

，

其中，为Critic网络的参数，/>为/>状态下，采取动作/>时的即时奖励，/>表示折扣因子，/>为状态/>下采取动作产生的动作价值，/>为Actor网络在状态/>下选择的动作，/>状态/>下，采取动作/>产生的动作价值，/>表示Actor网络的参数；

Actor网络使用Critic网络值函数的策略梯度来更新参数，参数/>的梯度更新表示为：

，

其中，为参数/>的梯度更新，/>为深度神经网络参数，/>为在/>状态下采取/>动作的优势。

在每个训练时期，网络向异构边缘服务器发送当前物联网设备与关联异构边缘服务器的连接状态（当前物联网设备关联的异构边缘服务器由任务簇聚类结果决定）智能体根据当前连接状态和从边缘服务器分配的发射功率做出动作决策。

不断更新Actor-Critic网络参数，直至达到设定的迭代次数，交互训练结束，异构边缘服务器下载网络参数和训练完成的经验池，成为智能体。

步骤7、智能体感知网络环境的变化，获取当前状态，输入到Actor-Critic网络。

Actor-Critic网络输出物联网设备与智能体的连接状态以及分配功率大小，同时计算所能获得的奖励值，并将其发送给物联网设备。

物联网设备接收到其与智能体的连接状态以及获得分配功率，同智能体协同处理推理任务。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种面向异构推理任务的边端协同系统，其特征在于，包括终端设备层和边缘服务器层；

所述终端设备层包括多个物联网设备，每个所述物联网设备用于负责由单个深度学习模型组成的异构推理任务；

所述边缘服务器层包括多个异构边缘服务器，所述异构边缘服务器与物联网设备协作完成异构推理任务；

应用于所述面向异构推理任务的边端协同系统中的资源分配方法包括以下步骤：

对移动边缘计算网络环境进行建模，得到移动边缘计算网络环境模型，包括：预设系统中物联网设备的集合为，物联网设备/>产生连续的多个推理任务/>，系统中产生的推理任务集合为/>，异构边缘服务器的集合为/>；

在t时刻，异构边缘服务器与物联网设备/>之间的连接用决策变量/>表示：当物联网设备上产生的多个异构推理任务所需资源与异构边缘服务器/>的计算资源相同时，，其表示物联网设备/>与异构边缘服务器/>连接；

当物联网设备上产生的多个异构推理任务所需资源与异构边缘服务器/>的计算资源不同时，/>，其表示物联网设备/>与异构边缘服务器/>没有连接；

将物联网设备与异构边缘服务器/>之间可实现的上行链路最大数据传输速率/>表示为：

，

其中，表示分配给物联网设备/>的链路带宽资源，/>为物联网设备/>到异构边缘服务器的信噪比，其表达式为：

，

其中，表示物联网设备/>与异构边缘服务器/>的信道增益，/>表示在t时隙内异构边缘服务器/>分配给物联网设备/>的发射功率，/>表示加性高斯白噪声的方差；

在移动边缘计算网络环境模型中根据边端协同系统中的资源分配优化问题，构建优化目标函数，包括：

，

其中，为系统的总能量消耗，/>为系统中的异构边缘服务器数量，/>为系统中的物联网设备数量，/>为在t时刻异构边缘服务器/>与物联网设备/>之间的连接用决策变量，/>表示在t时刻异构边缘服务器/>分配给物联网设备/>的发射功率，/>是在t时刻系统中异构边缘服务器的静态功率值；

在时间内，系统中所需要的数据传输速率/>表示为：

，

其中，是在t时刻物联网设备/>与异构边缘服务器/>的数据传输速率，/>为系统中的物联网设备数量；

系统的能量效率表示为：

，

其中，为边端协同系统的能量效率，/>为边端协同系统中所需要的数据传输速率，/>为边端协同系统中的总能量消耗；

构建边端协同系统的优化目标函数，其表达式为：

，

其中，为优化目标函数，表示最大化系统的资源利用率；S、P为优化目标函数的优化变量，/>表示异构边缘服务器/>与物联网设备/>之间的连接决策，/>表示异构边缘服务器/>给物联网设备/>产生的推理任务分配的功率；

C2表示物联网设备的发射功率约束条件，其中，为物联网设备的最大功率；

C4表示推理任务应该在最大传输容忍时间内完成传输，其中，为在t时刻物联网设备/>与异构边缘服务器/>的数据传输速率，/>为在t时刻异构边缘服务器/>分配给物联网设备/>的链路带宽资源，/>为系统最大传输容忍时间；

C5表示物联网设备与异构边缘服务器/>的数据插传输速率不超过其最大数据传输速率，其中，/>为物联网设备/>与异构边缘服务器/>之间可实现的上行链路最大数据传输速率；

将优化目标函数转换为马尔可夫决策问题模型，所述马尔可夫决策问题模型的五元组建模为；

其中，为状态空间，其表示为异构边缘服务器/>与物联网设备/>的连接决策以及每个异构边缘服务器的总功率，/>；

为动作空间，其表示为异构边缘服务器/>分配给物联网设备的功率，/>；

为执行动作a后从状态/>到/>的转移状态概率，/>；

为系统的奖励函数，其表达式如下：

，

其中，表示系统的奖励函数，/>表示为在执行动作a后系统的实际能耗；/>表示系统所需要的数据传输率；/>表示惩罚因子，当任务在最大传输容忍时间内完成传输时/>，若传输超时，则/>设为常数，且/>；

为折扣因子，/>；

对层次凝聚聚类算法进行改进，得改进后的层次凝聚聚类算法，包括：

a、将每个推理任务视为一个聚类，初始化聚类质心；

，

其中，为聚类/>之间的特征距离；/>分别表示聚类/>和/>在第/>维的坐标，/>为维度数量；

c、搜寻孤立的聚类，计算相邻聚类间的特征距离并排序，得到最小相邻特征距离；

d、合并相邻特征距离最小的两个聚类，得到一个新的聚类；

e、重复步骤c~d，直至合并的聚类数量占初始聚类数量的设定比例时，聚类算法迭代结束，得到改进后的层次凝聚聚类算法；

利用改进后的层次凝聚聚类算法将推理任务聚类成不同的任务簇，得任务簇的聚类结果；

根据马尔可夫决策问题模型构建基于元学习的Actor-Critic网络，基于元学习的Actor-Critic网络的构建方法，包括：

所述Actor-Critic网络包括两个控制器，其分别为高级控制器和低级控制器，所述高级控制器用于生成基于元学习的目标，低级控制器用于根据高级控制器所生成的目标执行动作；

在每个控制器中，Actor网络根据当前状态输出策略/>，所述策略/>即为动作/>，Critic网络通过计算状态动作对/>的长期奖励对策略/>进行评估；

，

其中，为状态/>下执行策略/>的策略价值，/>为第/>个时隙的奖励值，/>为状态/>下执行策略/>的策略价值，/>为状态/>下输出动作/>产生的动作价值，/>为状态/>下输出动作/>时的即时奖励，/>为折扣因子，/>；/>为状态/>下输出动作/>的优势；

根据任务簇的聚类结果利用Actor-Critic网络对异构边缘服务器进行交互训练，并更新Actor-Critic网络的参数，得到训练完成的异构边缘服务器，即为智能体，包括：

S3、更新Actor-Critic网络的参数；

S4、重复步骤S1~S3，直至达到设定的迭代次数，交互训练结束，异构边缘服务器下载网络参数和训练完成的经验池，成为智能体；

更新Actor-Critic网络的参数包括：

利用时间误差更新Critic网络的参数，其表达式如下：

，

其中，为Critic网络的参数，/>为状态/>下输出动作/>时的即时奖励，/>为折扣因子，；/>为状态/>下输出动作/>产生的动作价值，/>为状态/>下输出动作/>产生的动作价值，/>为Actor网络的参数；

Actor网络的参数采用Critic网络的值函数的策略梯度进行更新，其表达式如下：

，

其中，为参数/>的梯度更新，/>为深度神经网络参数，/>为状态/>下输出动作/>的优势；

智能体利用Actor-Critic网络调整资源分配，物联网设备获得分配功率，并与智能体协同处理异构推理任务，包括：

2.根据权利要求1所述的面向异构推理任务的资源分配方法，其特征在于，当存在两个及以上相同的最小相邻特征距离时，计算聚类之间的相对距离，选取相对距离小的聚类作为相邻特征距离最小的聚类，相对距离的表达式如下：

，

3.根据权利要求1所述的面向异构推理任务的资源分配方法，其特征在于，同一任务簇内的推理任务选择关联的异构边缘服务器相同。