CN117608821A

CN117608821A - 确定计算任务卸载策略的方法、装置、设备及介质

Info

Publication number: CN117608821A
Application number: CN202311386125.8A
Authority: CN
Inventors: 张维庭; 王洪超; 孙呈蕙; 杨冬; 郭瑞彬; 张宏科
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2023-10-24
Filing date: 2023-10-24
Publication date: 2024-02-27

Abstract

本发明涉及工业物联网技术领域，公开了一种确定计算任务卸载策略的方法、装置、设备及介质，该方法包括：获取计算任务，其中，计算任务包含预设数量个子任务；根据计算任务，获取智算融合网络系统的系统状态，其中，智算融合网络系统用于处理计算任务；将系统状态输入目标神经网络，得到每个子任务的候选卸载位置的回报值，其中，候选卸载位置包含于智算融合网络系统；根据回报值，生成计算任务中每个子任务的目标卸载策略，其中，目标卸载策略用于确定子任务的目标卸载位置。本发明解决了无法确定能够处理各类计算任务的卸载策略，无法确定最优卸载位置并进行算力资源协同分配的问题。

Description

确定计算任务卸载策略的方法、装置、设备及介质

技术领域

本发明涉及工业物联网技术领域，具体涉及一种确定计算任务卸载策略的方法、装置、设备及介质。

背景技术

物联网需要具有强大的分析和计算能力去处理各种计算任务。虽然，物联网中的本地设备具有存储容量和计算能力，但难以满足物联网复杂应用日益增长的计算任务需求。一方面，计算任务直接在本地设备处理时，由于本地设备计算能力的约束，导致处理计算任务的时延较长，降低了用户的体验。另一方面，计算任务所消耗的巨大能耗也严重缩短了本地设备的寿命。

当前，相关技术采用智算融合网络，并将计算任务迁移到智算融合网络中计算能力更强的算力节点，降低因本地设备计算能力约束而造成的响应延迟和能源消耗。然而，迁移过程涉及到计算任务卸载策略的决策和算力资源协同分配问题，智算融合网络中计算任务卸载与算力调度机制尚不完善。

因此，相关技术存在无法确定能够处理各种计算任务的卸载策略，无法确定最优卸载位置并进行算力资源协同分配的问题。

发明内容

有鉴于此，本发明提供了一种确定计算任务卸载策略的方法、装置、设备及介质，以解决无法确定能够处理用户产生的各类计算任务的卸载策略，无法确定最优卸载位置并进行算力资源协同分配的问题。

第一方面，本发明提供了一种确定计算任务卸载策略的方法，该方法包括：

获取计算任务，其中，计算任务包含预设数量个子任务；

根据计算任务，获取智算融合网络系统的系统状态，其中，智算融合网络系统用于处理计算任务；

将系统状态输入目标神经网络，得到每个子任务的候选卸载位置的回报值，其中，候选卸载位置包含于智算融合网络系统；

根据回报值，生成计算任务中每个子任务的目标卸载策略，其中，目标卸载策略用于确定子任务的目标卸载位置。

本实施例提供的确定计算任务卸载策略的方法，建立智算融合网络系统的系统模型。在确定计算任务卸载策略时，将当前智算融合网络系统的系统状态输入目标神经网络，得到智算融合网络系统中每个候选卸载位置的回报值，通过回报值反映将计算任务的子任务卸载到该候选卸载位置对应的延迟和能耗。根据回报值，生成计算任务中每个子任务的目标卸载策略。解决了无法确定能够处理各类计算任务的卸载策略，无法确定最优卸载位置并进行算力资源协同分配问题。

在一种可选的实施方式中，在将系统状态输入目标神经网络之前，方法还包括：

获取训练样本；

根据训练样本和评估神经网络，得到训练回报值；

根据训练样本和参考神经网络，得到参考回报值，其中，参考神经网络和评估神经网络结构相同；

根据训练回报值、参考回报值以及误差函数，得到损失值；

根据损失值调整评估神经网络的第一参数，每隔预设步长，将参考神经网络的第二参数修改为对应的评估神经网络的第一参数，并从获取训练样本开始执行后续步骤，如果调整第一参数的次数达到第一预设阈值或损失值小于第二预设阈值的次数达到第三预设阈值，则停止训练，将参考神经网络作为目标神经网络。

在本实施方式中，引入与评估神经网络结构相同但参数不同的参考神经网络，根据训练样本，对评估神经网络和参考神经网络进行训练，得到目标神经网络，提高了训练稳定性和算法收敛性。本发明将目标神经网络用于生成目标卸载策略，考虑了终端和服务的多维属性值，对可靠性、时延和能耗共同优化，实现智算融合网络中泛在闲置算力的高效利用和按需分配。

在一种可选的实施方式中，在获取训练样本之前，方法还包括：

获取历史计算任务和历史计算任务对应的历史系统状态；

将历史系统状态输入预先训练的神经网络，得到所有候选动作的状态动作值；

根据预设策略、候选动作以及状态动作值，得到目标动作；

执行目标动作，得到历史系统状态的下一系统状态和目标动作的奖励值；

将历史系统状态、目标动作、下一系统状态以及奖励值作为一个训练样本，并保存训练样本。

在本实施方式中，根据历史系统状态、预设策略以及预先训练的神经网络，得到目标动作、下一系统状态以及奖励值，将历史系统状态、目标动作、下一系统状态以及奖励值作为一个训练样本并保存。将训练样本用于模型训练和参数更新，提高了数据的利用率和训练效率。

在一种可选的实施方式中，在将历史系统状态输入预先训练的神经网络之前，方法还包括：

获取完成子任务所消耗的总成本；

根据总成本，生成多目标优化问题，并获取多目标优化问题的约束条件；

根据多目标优化问题和约束条件，构建统计模型的状态空间、动作空间以及奖励函数，其中，奖励函数是根据总成本得到的；

根据状态空间、动作空间以及奖励函数，生成预先训练的神经网络、评估神经网络以及参考神经网络。

在本实施方式中，根据完成子任务所消耗的总成本，生成多目标优化问题和约束条件；构建统计模型的状态空间、动作空间以及奖励函数，生成预先训练的神经网络、评估神经网络以及参考神经网络。将计算任务卸载过程中最小化时延和能耗的综合开销问题，转换成实现最大化长期累计奖励期望值的最优决策问题。通过设定合适的奖励函数，匹配最优卸载位置，有效地平衡资源的供需关系，实现可靠、高效的资源提供。

在一种可选的实施方式中，获取完成子任务所消耗的总成本，包括：

获取本地设备的第一计算能力和计算功率，其中，本地设备包含于智算融合网络系统；

根据子任务、第一计算能力以及计算功率，得到子任务在本地设备执行所需要的第一成本；

获取算力节点对应的传输速率、第二计算能力、本地设备的等待功率以及发射功率，其中，算力节点包含于智算融合网络系统；

根据子任务、传输速率、第二计算能力、等待功率以及发射功率，得到子任务在算力节点执行所需要的第二成本；

根据第一成本、第二成本以及第一预设公式，得到总成本。

在本实施方式中，计算子任务在本地设备执行所需要的第一成本、子任务在算力节点执行所需要的第二成本，综合第一成本和第二成本得到处理子任务的总成本。便于后续生成多目标优化问题和约束条件。

在一种可选的实施方式中，根据子任务、第一计算能力以及计算功率，得到子任务在本地设备执行所需要的第一成本，包括：

根据子任务，得到子任务的计算资源需求；

根据第一计算能力、计算资源需求以及第二预设公式，得到本地设备处理子任务的第一消耗时间；

根据计算功率、第一消耗时间以及第三预设公式，得到本地设备处理子任务的第一能耗；

根据第一消耗时间、第一能耗、预设权重系数以及第四预设公式，得到第一成本。

在一种可选的实施方式中，根据子任务、传输速率、第二计算能力、等待功率以及发射功率，得到子任务在算力节点执行所需要的第二成本，包括：

根据子任务，得到子任务的输入数据长度和计算资源需求；

根据计算资源需求、第二计算能力以及第五预设公式，得到算力节点处理子任务的第二消耗时间；

根据传输速率、输入数据长度以及第六预设公式，得到传输时延；

根据第二消耗时间和传输时延，得到算力节点的总时延；

根据发射功率、输入数据长度、传输速率以及第七预设公式，得到传输能耗；

根据等待功率和第二消耗时间，得到等待能耗；

根据传输能耗和等待能耗，得到算力节点的总能耗；

根据总时延、总能耗、预设权重系数以及第八预设公式，得到第二成本。

第二方面，本发明提供了一种确定计算任务卸载策略的装置，该装置包括：

第一获取模块，用于获取计算任务，其中，计算任务包含预设数量个子任务；

第二获取模块，用于根据计算任务，获取智算融合网络系统的系统状态，其中，智算融合网络系统用于处理计算任务；

第一得到模块，用于将系统状态输入目标神经网络，得到每个子任务的候选卸载位置的回报值，其中，候选卸载位置包含于智算融合网络系统；

第一生成模块，用于根据回报值，生成计算任务中每个子任务的目标卸载策略，其中，目标卸载策略用于确定子任务的目标卸载位置。

第三方面，本发明提供了一种计算机设备，包括：存储器和处理器，存储器和处理器之间互相通信连接，存储器中存储有计算机指令，处理器通过执行计算机指令，从而执行上述第一方面或其对应的任一实施方式的确定计算任务卸载策略的方法。

第四方面，本发明提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机指令，计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的确定计算任务卸载策略的方法。

附图说明

为了更清楚地说明本发明具体实施方式或相关技术中的技术方案，下面将对具体实施方式或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的确定计算任务卸载策略的方法的流程示意图；

图2是根据本发明实施例的智算融合网络系统模型的结构示意图；

图3是根据本发明实施例的评估神经网络和参考神经网络的结构图；

图4是根据本发明实施例的一种算网一体的集中式多维资源智能适配方法的流程图；

图5是根据本发明实施例的确定计算任务卸载策略的装置的结构框图；

图6是本发明实施例的计算机设备的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

智算融合网络作为一种典型算力网络，具有更高灵活性，能够整合和调度网络中闲置的各类算力资源，为用户提供个性化算力服务。然而，智算融合网络中计算卸载与算力调度机制尚不完善，需要设计高效的计算任务卸载机制，确定计算任务的卸载策略，实现有限算力资源合理分配与调度。深度强化学习将训练和决策分开，能够根据反馈结果快速做出相应的最优决策，并具有迁移学习的能力，能够在了解某个问题后高效求解其他类似问题，因此，可以引入深度强化学习解决当前智算融合网络计算卸载与算力调度机制尚不完善的问题。

基于上述内容，本发明实施例提供了一种确定计算任务卸载策略的方法，建立智算融合网络系统的系统模型。在需要确定计算任务卸载策略时，将当前智算融合网络系统的系统状态输入目标神经网络，得到智算融合网络系统中每个候选卸载位置的回报值，通过回报值反映将计算任务的子任务卸载到该候选卸载位置对应的延迟和能耗。根据回报值，生成计算任务中每个子任务的目标卸载策略。以达到提供一种可靠、低成本的算力调度机制，在智算融合网络中确定计算任务的卸载策略，实现对闲置算力的高效利用和按需分配的效果。

根据本发明实施例，提供了一种确定计算任务卸载策略的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在具有数据处理能力的计算机设备中执行，例如：电脑、服务器等，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

在本实施例中提供了一种确定计算任务卸载策略的方法，可用于上述的计算机设备，图1是根据本发明实施例的确定计算任务卸载策略的方法的流程图，如图1所示，该流程包括如下步骤：

步骤S101，获取计算任务，其中，计算任务包含预设数量个子任务。

具体地，本发明构建了建立智算融合网络系统的系统模型，将计算任务的卸载问题抽象建模为通信模型和计算模型，如图2所示，智算融合网络系统包括：算力节点V＝{V₁，V₂…V_k}共K个算力节点；M个算力服务请求方(Computing Service Requestor，CSR)；R个基站(Base Station，BS)；1个算力网络控制器(Center Control，CC)。K、M、R的数值根据实际需求设定。算力节点可以为CPU、GPU、边缘计算服务器、TPU、FPGA等；算力服务请求方位于智算融合网络系统的广义服务层，基站和算力节点位于智算融合网络系统的网络融合层，算力网络控制器位于智算融合网络系统的映射适配层。算力节点均匀分布在该区域，V＝{V₁，V₂…V_k}表示算力节点的集合，每个BS通过光纤与算力节点相连。为了保证对计算任务卸载的可靠性，算力服务请求方的计算任务可以通过多个链路到达不同的算力节点。为了实现对算力的协同调度，每个算力节点都通过基站与算力网络中心控制器(CenterController，CC)相连。本发明的算力网络控制器是智算融合网络系统的核心，用于最终生成每个子任务的目标卸载策略，在智算融合网络系统中发挥着重要作用。算力网络控制器通过服务资源感知获取算力服务请求方的计算任务信息；通过网络资源感知获取通信链路状况；通过算力资源感知获取算力节点设备的电量、CPU负载率、算力节点状况等信息；并根据上述信息生成计算任务的目标卸载策略，通过服务策略下发将目标卸载策略下发给算力服务请求方，算力服务请求方根据目标卸载策略确定了计算任务中每个子任务的卸载位置和计算资源分配，完成对计算任务的卸载和对智算融合网络系统中的算力资源进行调度，实现最小化计算任务的能量消耗和时间消耗。

算力网络中心控制器获取算力服务请求方的计算任务，其中，计算任务包含预设数量个子任务，预设数量根据实际情况确定，例如：计算任务A包含i个子任务，此时预设数量为i，第i个子任务为A_i，在上述通信模型中A_i＝{w_i,c_i,s_i}，其中，w_i表示子任务A_i的输入数据长度，包括计算任务的相关信息、系统参数等，当请求被卸载到算力节点进行计算时，w_i需要通过通信链路上传到算力节点。c_i表示执行子任务A_i所需的计算资源，即CPU时钟周期数，无论子任务A_i在何处执行，c_i的大小均相同。s_i表示完成子任务A_i后的输出数据量，当请求被卸载到算力节点计算时，计算结果需要通过通信链路返回给算力服务请求方。每个子任务都可以选择本地执行，也可以卸载到算力节点处执行。

步骤S102，根据计算任务，获取智算融合网络系统的系统状态，其中，智算融合网络系统用于处理计算任务。

具体地，算力网络中心控制器根据计算任务的发起时间或需要完成的时间，获取对应时刻t下智算融合网络系统的系统状态，根据系统状态能够确定智算融合网络系统中算力节点和算力服务请求方的本地智能终端的算力资源，算力节点和本地智能终端均能处理计算任务的子任务。另外，因为计算任务中有预设数量个子任务，并不一定需要智算融合网络系统将每个子任务在同一时刻进行处理，因此，可以获取时间段T内每个时刻下智算融合网络系统的系统状态，只要在时间段T内将计算任务的所有子任务处理完毕即可。

步骤S103，将系统状态输入目标神经网络，得到每个子任务的候选卸载位置的回报值，其中，候选卸载位置包含于智算融合网络系统。

具体地，算力网络中心控制器内包含提前训练好的目标神经网络，目标神经网络例如：DQN神经网络(Deep Q-network，基于深度学习Q算法的神经网络)，则目标神经网络能够输出每个动作的回报值，且输出的回报值为Q值，动作表示将子任务卸载到某个候选卸载位置，每个候选卸载位置对应一个动作，候选卸载位置可以为：算力服务请求方的本地智能终端或某一个算力节点。

步骤S104，根据回报值，生成计算任务中每个子任务的目标卸载策略，其中，目标卸载策略用于确定子任务的目标卸载位置。

具体地，根据回报值能够确定每个子任务最优的动作，例如：取每个子任务Q值最大的动作作为最优的动作。每个动作表示将子任务卸载到某个候选卸载位置，因此，最优的动作卸载到的候选卸载位置即子任务的目标卸载位置。根据回报值确定了计算任务中每个子任务的最优的动作后，就可以生成计算任务中每个子任务的目标卸载策略。

在一些可选的实施方式中，在将系统状态输入目标神经网络之前，方法还包括：

获取训练样本；

根据训练样本和评估神经网络，得到训练回报值；

根据训练回报值、参考回报值以及误差函数，得到损失值；

具体地，本发明通过引入与评估神经网络结构相同但参数不同的参考神经网络，来提高训练稳定性和算法收敛性。评估神经网络的第一参数记作：θ，参考神经网络的第二参数记作：θ′。

以评估神经网络和参考神经网络均为DQN神经网络为例进行说明：

获取训练样本，例如：(s_t,a_t,s_t+1,r_t)，其中，s_t为t时刻智算融合网络系统的系统状态；a_t为t时刻智算融合网络系统的动作，表示在t时刻将子任务卸载至某个候选卸载位置；s_t+1为t+1时刻智算融合网络系统的系统状态，r_t为执行动作a_t的奖励值。

将训练样本的s_t和a_t输入评估神经网络，评估神经网络针对当前状态下智能体采取动作所得到的价值函数进行评价估计，得到训练回报值Q(s_t,a_t；θ)，评估神经网络的智能体即智算融合网络系统。

将训练样本中的s_t+1和r_t输入参考神经网络，得到参考回报值Q(s_t,a_t；θ′)，例如公式(1)：

其中，γ表折扣因子，表明了未来回报相较于当前奖励的重要程度，0≤γ≤1；a_t+1为t+1时刻智算融合网络系统的动作。

根据训练回报值Q(s_t,a_t；θ)、参考回报值Q(s_t,a_t；θ′)以及误差函数，误差函数例如公式(2)，计算得到损失值Loss(θ)：

Loss(θ)＝E[(Q(s_t+1,a_t+1；θ′)-Q(s_t,a_t；θ))²] (2)

其中，E表示数学期望。

根据损失值Loss(θ)，通过最小化损失函数来对当前评估神经网络的第一参数θ进行更新。

每隔预设步长，将评估神经网络的第一参数θ复制给参考神经网络，将参考神经网络的第二参数θ′修改为对应的评估神经网络的第一参数θ，实现对参考神经网络的参数更新，预设步长例如：5、10等。

并从上述“获取训练样本”开始执行后续步骤，获取一个不同的训练样本，继续对评估神经网络和参考神经网络进行训练，直到调整第一参数的次数达到第一预设阈值或损失值小于第二预设阈值的次数达到第三预设阈值，则停止训练，将参考神经网络作为目标神经网络，用于后续生成计算任务的目标卸载策略，其中，调整第一参数的次数达到第一预设阈值表示训练迭代的次数达到设定上限值，第一预设阈值例如：100、1000等；损失值小于第二预设阈值的次数达到第三预设阈值表示评估神经网络和参考神经网络收敛、宜居性达到阈值，第二预设阈值根据实际需求设定，第三预设阈值例如：3、5等。

在一些可选的实施方式中，在获取训练样本之前，方法还包括：

获取历史计算任务和历史计算任务对应的历史系统状态；

根据预设策略、候选动作以及状态动作值，得到目标动作；

具体地，本发明利用目标神经网络实现对智算融合网络系统的系统状态感知，实现了高维度输入数据的存储和数据的高效搜索。为了得到用于训练评估神经网络和参考神经网络的训练样本，本发明提出一个预先训练的神经网络，例如：预先训练的DNN神经网络(Deep Nueral Network，深度神经网络)推理模型，该预先训练的神经网络采用一种包含两层半连接隐藏层的神经网络，该预先训练的神经网络的智能体为智算融合网络系统。

获取历史计算任务和历史计算任务对应的。将历史系统状态输入预先训练的神经网络，预先训练的DNN推理模型的智能体在历史系统状态下，基于预设策略随机选取动作，与系统环境进行交互，系统环境包括：设备状态信道状态/>和算力节点状态/>预设策略例如：贪心策略。基于贪心策略随机选取动作的步骤为：以智算融合网络系统的历史系统状态为预先训练的神经网络的输入，预先训练的神经网络会输出该状态下所有候选动作的状态动作值，候选动作为智能体可能执行的动作，即将子任务卸载到某个候选卸载位置。预先训练的神经网络每次只能选取一个动作，为防止陷入局部最优解，动作选择策略依据贪心ε-greedy策略，即在当前状态下，智能体有1-ε的概率将最优动作作为目标动作，最优动作为/>即使状态动作值最大的动作，而有ε的概率随机选取一个任意动作作为目标动作。相应的动作选择公式例如公式(3)：

在动作选择结束后，预先训练的神经网络的智能体将会在环境中执行目标动作，随后环境会返回历史系统状态的下一系统状态s_t+1和奖励值r_t。将包括历史系统状态s_t、当前动作a_t、下一状态s_t+1和奖励值r_t作为一个训练样本(s_t,a_t,s_t+1,r_t)，并将训练样本保存至记忆回放库。

另外，本发明采用了经验回放机制：依据经验回放机制实现数据的高效利用，由贪心策略随机生成的样本放入记忆回放库中存储，在迭代训练的过程中，记忆回放库中存储了智能体各个状态下，采取不同动作与环境进行交互的经验值。通过从回放记忆库对这些经验值中随机采样，将不同时间的经验值混合，降低了数据之间的相关性。同时，将采样样本用于模型训练和参数更新，提高了数据的利用率和训练效率。在对评估神经网络和参考神经网络进行训练时，从记忆回放库中抽取训练样本。

在一些可选的实施方式中，在将历史系统状态输入预先训练的神经网络之前，方法还包括：

获取完成子任务所消耗的总成本；

具体地，获取完成子任务所消耗的总成本，例如：子任务A_i的总成本Cost_i如公式(4)所示：

Cost_i＝(1-ζ_i(l))Cost_i,local+ζ_i(l)Cost_i,off (4)

其中，ζ_i(l)为卸载变量，ζ_i(l)＝0表示将子任务A_i卸载到算力服务请求方的本地智能终端，ζ_i(l)＝1表示将子任务A_i卸载到某一个算力节点，Cost_i,local为算力服务请求方的本地智能终端完成子任务A_i所消耗的成本，Cost_i,off为算力节点完成子任务A_i所消耗的成本。

根据总成本，可以将能耗和时间消耗表述为一个多目标优化问题，使边缘网络能够可靠、有效的资源利用。生成的多目标优化问题和多目标优化问题的约束条件如公式(5)所示，优化目的是最小化用户处理计算任务的时延和能耗的加权成本。

其中，约束条件C1是对任务卸载位置进行约束，即每个子任务只能在本地智能终端或卸载到算力节点处理。约束条件C2是对系统总时延进行约束，即不论子任务采用哪种计算方式，全部子任务的总时延要小于等于设定的最大允许时延τ_Max，T_i,local为本地智能终端处理子任务的时延，T_i,off为算力节点处理子任务的时延，n为子任务的总数。

根据上述多目标优化问题和约束条件，构建统计模型，例如：马尔可夫决策过程模型。设计集中式多维资源适配方法，制定高效的集中式子任务计算卸载策略。将所设计的模型和制定的优化目标转化为马尔可夫决策过程模型，设定马尔可夫决策过程模型所需的状态空间、动作空间和奖励函数。

状态空间：将计算任务卸载到附近的算力节点或本地智能终端，算力网络控制器需要同时考虑本地智能终端状况、算力节点状况和通信链路信噪比等情况。因此，当前时刻t智算融合网络系统的系统状态由三部分组成，分别是本地智能终端状态信道状况和算力节点的状态/>状态空间具体表示为：

本地智能终端状态包括设备当前的网络质量、剩余电量比、当前CPU负载率以及计算任务的相关信息，可以表示为：

其中，n_t表示当前时刻t下本地智能终端的网络连接质量。q_t表示当前t时刻下本地智能终端当前电量剩余比率。δ_t表示当前t时刻下本地智能终端的CPU负载率。A_i表示需要进行卸载决策计算任务的相关信息。

假定系统中基站与节点是一一对应的，那么在当前t时刻下，用户可用的基站数和算力节点数均为k∈{1,2,3....K}，第j个基站为用户提供的上行通信链路的信道状况记作σ_j，第j个算力节点的计算能力记作C_j，那么信道状况如公式(8)所示，算力节点的状态/>如公式(9)所示：

综上，整个系统的状态空间S定义为：

S＝(s₁,s₂...s_t..s_T) (10)

其中，T为时间段，当前时刻t属于时间段T。

行为空间为卸载决策构成的总集合表示行为空间，表示为：

a_t(l)＝[a_i，0(l),a_i，1(l)...a_i,j(l)...a_i,k(l)] (11)

其中，a_i,j(l)＝{0,1}，当a_i,0(l)＝1时，表示子任务A_i在本地智能终端执行，当a_i,j(l)＝1(1≤j≤k)时，表示子任务A_i卸载到算力节点V_j处理。

因此，行为空间B可以表示为：

B＝[a₁(l),a₂(l)...a_T(l)] (12)

奖励函数：通过奖励函数计算出的奖励值的大小直观反映系统在当前状态采取某种行为的优劣。多目标优化问题设定的优化目标是通过降低时延和能耗来达到总成本Cost_i最小化，考虑到强化学习以长期累计奖励值最大化作为解决问题的首要目标。因此，将奖励函数设置为总成本Cost_i的倒数，如公式(13)所示：

其中，Cost(s_t,a_t)表示智算融合网络系统的系统状态为s_t，执行动作a_t的总成本。

将计算卸载问题中最小化时延和能耗的综合开销问题，转换成求解深度强化学习中能实现最大化长期累计奖励期望值的最优决策问题。所以整个过程中的长期奖励值可以表示为：

其中，0≤γ≤1，表折扣因子，表明了未来回报相较于当前奖励的重要程度。

根据上述状态空间、动作空间以及奖励函数，生成预先训练的神经网络、评估神经网络以及参考神经网络，其中，预先训练的神经网络可采用DNN神经网络(Deep NueralNetwork，深度神经网络)，并利用智算融合网络系统的运行数据对其进行训练。评估神经网络和参考神经网络结构相同，为避免网络结构臃肿，数据训练速度减慢，陷入局部最优解。设计一种半连接的神经网络结构，即上层节点与下层节点之间并不是完全连接，如图3所示，该神经网络具有一个输入层，两个半连接的隐藏层和一个输出层。在当前时刻t下，系统状态s_t的维度决定该神经网络输入层神经元的个数。中间是两层半连接隐藏层，假设两个隐藏层的节点数均为P，规定前一层的第i个节点和下一层的第i个、第i+1个节点相连。特别地，前一层的第P个节点和下一层的第P个节点、第1个节点相连。当前系统状态s_t所对应行为空间的所有动作的数目，决定了神经网络输出层的数目。当前系统状态s_t所有可能的状态—动作值函数，决定了神经网络输出层的输出值，输出值Q(s_t,a_t，0)表示智算融合网络系统在系统状态s_t下，执行动作a_t，0的回报值，Q(s_t,a_t，1)表示智算融合网络系统在系统状态s_t下，执行动作a_t，1的回报值，Q(s_t,a_t，k)表示智算融合网络系统在系统状态s_t下，执行动作a_t，k的回报值。

在一些可选的实施方式中，获取完成子任务所消耗的总成本，包括：

根据第一成本、第二成本以及第一预设公式，得到总成本。

具体地，本发明引入一种需求匹配的计算模型，包括本地执行模型和远程计算模型。在系统中，每个算力服务请求方都有需要处理的计算任务，其中包含若干个子任务。每个子任务都可以选择在算力服务请求方的本地智能终端本地执行，也可以卸载到算力节点处执行，通过本地执行模型能够确定子任务在本地设备(即本地智能终端)执行所需要的第一成本，通过远程计算模型能够确定子任务在算力节点执行所需要的第二成本。

获取本地设备的第一计算能力C_local和计算功率通过本地执行模型，根据子任务、第一计算能力C_local以及计算功率/>得到子任务在本地设备执行所需要的第一成本Cost_i,local。

获取算力节点对应的传输速率第二计算能力C、本地设备的等待功率/>以及发射功率/>其中，传输速率/>B_ij表示算力服务请求方到算力节点V_j之间的链路带宽，单位为Hz；/>表示用户终端设备的发射功率，单位为W；h_ij表示上行链路的信道增益；N₀表示信道中的噪声功率。

通过远程计算模型，根据子任务、传输速率第二计算能力C、等待功率/>以及发射功率/>得到子任务在算力节点执行所需要的第二成本Cost_i,off。

根据第一成本Cost_i,local、第二成本Cost_i,off以及第一预设公式，第一预设公式例如公式(4)，计算得到总成本Cost_i。

Cost_i＝(1-ζ_i(l))Cost_i,local+ζ_i(l)Cost_i,off (4)

在一些可选的实施方式中，根据子任务、第一计算能力以及计算功率，得到子任务在本地设备执行所需要的第一成本，包括：

根据子任务，得到子任务的计算资源需求；

具体地，当卸载变量ζ_i(l)＝0时，子任务A_i直接在本地设备(即本地智能终端)处理。此时时延和能耗均为在本地设备执行所产生。

根据子任务，得到子任务的计算资源需求，例如：子任务A_i＝{w_i,c_i,s_i}，其中，子任务A_i的计算资源需求为c_i。

假定本地设备没有缓存区来存放计算结果，则每个子任务会被立刻执行，第一消耗时间只考虑计算时延，即本地CPU处理计算任务A_i所消耗的时间，第一消耗时间记作T_i,local。根据第一计算能力C_local、计算资源需求c_i以及第二预设公式，例如公式(14)，计算得到本地设备处理子任务的第一消耗时间T_i,local：

其中，C_local为本地设备U的计算能力即第一计算能力，例如：CPU的时钟周期数(单位Hz)。

第一成本除了需要考虑执行子任务的时延，还需要考虑本地设备的能耗。根据计算功率第一消耗时间T_i,local以及第三预设公式，例如公式(15)，计算得到本地设备处理子任务的第一能耗E_i,local：

其中，表示本地设备的计算功率。

另外，计算功率其中，α、β均为与具体CPU型号有关的常数，通常α＝10^-11，β＝2。因此，第一能耗还可以表示为：E_i,local＝α×(C_local)^β-1×c_i。

根据第一消耗时间T_i,local、第一能耗E_i,local、预设权重系数λ^T、λ^E以及第四预设公式，例如公式(16)，计算得到第一成本Cost_i,local：

其中，λ^T表示执行时延的权重系数，0≤λ^T≤1；λ^E表示能量消耗的权重系数，0≤λ^E≤1；用户可以根据自身需求选择不同的权重系数。

在一些可选的实施方式中，根据子任务、传输速率、第二计算能力、等待功率以及发射功率，得到子任务在算力节点执行所需要的第二成本，包括：

根据子任务，得到子任务的输入数据长度和计算资源需求；

根据第二消耗时间和传输时延，得到算力节点的总时延；

根据等待功率和第二消耗时间，得到等待能耗；

根据传输能耗和等待能耗，得到算力节点的总能耗；

具体地，对于子任务A_i，当卸载变量ζ_i(l)＝1时，表示计算任务被传输到算力节点执行。假设在一段时间内，系统中共有k个算力节点处理子任务，即V＝{V₁,V₂...V_k}，每个节点的计算能力可以表示为C＝{C₁,C₂...C_k}。

根据子任务，得到子任务的输入数据长度和计算资源需求，例如：子任务A_i＝{w_i,c_i,s_i}，其中，子任务A_i的计算资源需求为c_i，输入数据长度为w_i。

根据计算资源需求c_i、第二计算能力C以及第五预设公式，例如公式(17)，计算得到算力节点处理子任务的第二消耗时间表示算力节点V_j对子任务A_i进行计算的处理时延。

根据传输速率输入数据长度w_i以及第六预设公式，例如公式(18)，得到传输时延/> 表示子任务A_i通过无线链路上传到节点V_j的传输时延。

忽略将计算结果回传给算力服务请求方这一过程所产生的开销，当计算任务被卸载到算力节点处执行，总时延包括上行链路的传输时延和节点处理时延，用T_off来表示计算任务被卸载到算力节点处的总时延。根据第二消耗时间和传输时延/>得到算力节点的总时延：

根据发射功率输入数据长度w_i、传输速率/>以及第七预设公式，例如公式(19)，计算得到传输能耗/> 表示计算服务A_i传输到算力节点V_j过程中，通过上行通信链路所产生的传输能量消耗。

在算力节点执行计算任务的过程中，本地设备处于等待结果回传的状态，将此时本地设备的功率记作等待功率根据等待功率/>和第二消耗时间/>得到等待能耗/> 表示V_j节点执行计算请求A_i时，本地设备等待结果回传时产生的能耗。

同理，当计算任务被卸载到算力节点处执行时，忽略结果回传过程的能耗，总能耗只考虑用户通过上行链路到节点的传输能耗和节点处理数据时本地设备等待结果回传时产生的能耗，将总能耗用E_off来表示。根据传输能耗和等待能耗/>得到算力节点V_j的总能耗/>

根据算力节点V_j的总时延算力节点V_j的总能耗/>预设权重系数λ^T、λ^E以及第八预设公式，例如公式(20)，计算得到第二成本Cost_i,off。

在本实施例中提供了一种算网一体的集中式多维资源智能适配方法，与上述步骤S101-步骤S104解决了相同的技术问题，具有相同的技术效果，如图4所示，该流程包括如下步骤：

步骤S1：建立智算融合网络的系统模型。

步骤S2：将计算卸载过程抽象为通信模型、计算模型。

步骤S3：提出关于时延和能耗的多目标优化问题。

步骤S4：构建马尔科夫决策过程模型。

步骤S5：设计集中式多维资源智能适配机制。

步骤S6：应用深度强化学习算法优化时延和能量消耗。

通过上述步骤S1至步骤S6，设计了一个可靠、低成本辅助计算的最优计算卸载机制，用于解决下一代物联网爆发式数据增长导致的约束边缘资源消耗和不可靠性的问题。

在本实施例中还提供了一种确定计算任务卸载策略的装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

本实施例提供一种确定计算任务卸载策略的装置，如图5所示，包括：

第一获取模块501，用于获取计算任务，其中，计算任务包含预设数量个子任务；

第二获取模块502，用于根据计算任务，获取智算融合网络系统的系统状态，其中，智算融合网络系统用于处理计算任务；

第一得到模块503，用于将系统状态输入目标神经网络，得到每个子任务的候选卸载位置的回报值，其中，候选卸载位置包含于智算融合网络系统；

第一生成模块504，用于根据回报值，生成计算任务中每个子任务的目标卸载策略，其中，目标卸载策略用于确定子任务的目标卸载位置。

在一些可选的实施方式中，该装置还包括：

第三获取模块，用于获取训练样本；

第一得到模块，用于根据训练样本和评估神经网络，得到训练回报值；

第二得到模块，用于根据训练样本和参考神经网络，得到参考回报值，其中，参考神经网络和评估神经网络结构相同；

第三得到模块，用于根据训练回报值、参考回报值以及误差函数，得到损失值；

循环模块，用于根据损失值调整评估神经网络的第一参数，每隔预设步长，将参考神经网络的第二参数修改为对应的评估神经网络的第一参数，并从获取训练样本开始执行后续步骤，如果调整第一参数的次数达到第一预设阈值或损失值小于第二预设阈值的次数达到第三预设阈值，则停止训练，将参考神经网络作为目标神经网络。

在一些可选的实施方式中，该装置还包括：

第四获取模块，用于获取历史计算任务和历史计算任务对应的历史系统状态；

第四得到模块，用于将历史系统状态输入预先训练的神经网络，得到所有候选动作的状态动作值；

第五得到模块，用于根据预设策略、候选动作以及状态动作值，得到目标动作；

第六得到模块，用于执行目标动作，得到历史系统状态的下一系统状态和目标动作的奖励值；

保存模块，用于将历史系统状态、目标动作、下一系统状态以及奖励值作为一个训练样本，并保存训练样本。

在一些可选的实施方式中，该装置还包括：

第五获取模块，用于获取完成子任务所消耗的总成本；

第二生成模块，用于根据总成本，生成多目标优化问题，并获取多目标优化问题的约束条件；

构建模块，用于根据多目标优化问题和约束条件，构建统计模型的状态空间、动作空间以及奖励函数，其中，奖励函数是根据总成本得到的；

第三生成模块，用于根据状态空间、动作空间以及奖励函数，生成预先训练的神经网络、评估神经网络以及参考神经网络。

在一些可选的实施方式中，第五获取模块包括：

第一获取单元，用于获取本地设备的第一计算能力和计算功率，其中，本地设备包含于智算融合网络系统；

第一得到单元，用于根据子任务、第一计算能力以及计算功率，得到子任务在本地设备执行所需要的第一成本；

第二获取单元，用于获取算力节点对应的传输速率、第二计算能力、本地设备的等待功率以及发射功率，其中，算力节点包含于智算融合网络系统；

第二得到单元，用于根据子任务、传输速率、第二计算能力、等待功率以及发射功率，得到子任务在算力节点执行所需要的第二成本；

第三得到单元，用于根据第一成本、第二成本以及第一预设公式，得到总成本。

在一些可选的实施方式中，第一得到单元包括：

第一得到子模块，用于根据子任务，得到子任务的计算资源需求；

第二得到子模块，用于根据第一计算能力、计算资源需求以及第二预设公式，得到本地设备处理子任务的第一消耗时间；

第三得到子模块，用于根据计算功率、第一消耗时间以及第三预设公式，得到本地设备处理子任务的第一能耗；

第四得到子模块，用于根据第一消耗时间、第一能耗、预设权重系数以及第四预设公式，得到第一成本。

在一些可选的实施方式中，第二得到单元包括：

第五得到子模块，用于根据子任务，得到子任务的输入数据长度和计算资源需求；

第六得到子模块，用于根据计算资源需求、第二计算能力以及第五预设公式，得到算力节点处理子任务的第二消耗时间；

第七得到子模块，用于根据传输速率、输入数据长度以及第六预设公式，得到传输时延；

第八得到子模块，用于根据第二消耗时间和传输时延，得到算力节点的总时延；

第九得到子模块，用于根据发射功率、输入数据长度、传输速率以及第七预设公式，得到传输能耗；

第十得到子模块，用于根据等待功率和第二消耗时间，得到等待能耗；

第十一得到子模块，用于根据传输能耗和等待能耗，得到算力节点的总能耗；

第十二得到子模块，用于根据总时延、总能耗、预设权重系数以及第八预设公式，得到第二成本。

上述各个模块和单元的更进一步的功能描述与上述对应实施例相同，在此不再赘述。

本实施例中的确定计算任务卸载策略的装置是以功能单元的形式来呈现，这里的单元是指ASIC(Application Specific Integrated Circuit，专用集成电路)电路，执行一个或多个软件或固定程序的处理器和存储器，和/或其他可以提供上述功能的器件。

本发明实施例还提供一种计算机设备，具有上述图5所示的确定计算任务卸载策略的装置。

请参阅图6，图6是本发明可选实施例提供的一种计算机设备的结构示意图，如图6所示，该计算机设备包括：一个或多个处理器10、存储器20，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相通信连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在计算机设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在一些可选的实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个计算机设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器10为例。

处理器10可以是中央处理器，网络处理器或其组合。其中，处理器10还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路，可编程逻辑器件或其组合。上述可编程逻辑器件可以是复杂可编程逻辑器件，现场可编程逻辑门阵列，通用阵列逻辑或其任意组合。

其中，存储器20存储有可由至少一个处理器10执行的指令，以使至少一个处理器10执行实现上述实施例示出的方法。

存储器20可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器20可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些可选的实施方式中，存储器20可选包括相对于处理器10远程设置的存储器，这些远程存储器可以通过网络连接至该计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

存储器20可以包括易失性存储器，例如，随机存取存储器；存储器也可以包括非易失性存储器，例如，快闪存储器，硬盘或固态硬盘；存储器20还可以包括上述种类的存储器的组合。

该计算机设备还包括通信接口30，用于该计算机设备与其他设备或通信网络通信。

本发明实施例还提供了一种计算机可读存储介质，上述根据本发明实施例的方法可在硬件、固件中实现，或者被实现为可记录在存储介质，或者被实现通过网络下载的原始存储在远程存储介质或非暂时机器可读存储介质中并将被存储在本地存储介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件的存储介质上的这样的软件处理。其中，存储介质可为磁碟、光盘、只读存储记忆体、随机存储记忆体、快闪存储器、硬盘或固态硬盘等；进一步地，存储介质还可以包括上述种类的存储器的组合。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件，当软件或计算机代码被计算机、处理器或硬件访问且执行时，实现上述实施例示出的方法。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种确定计算任务卸载策略的方法，其特征在于，所述方法包括：

获取计算任务，其中，所述计算任务包含预设数量个子任务；

根据所述计算任务，获取智算融合网络系统的系统状态，其中，所述智算融合网络系统用于处理所述计算任务；

将所述系统状态输入目标神经网络，得到每个所述子任务的候选卸载位置的回报值，其中，所述候选卸载位置包含于所述智算融合网络系统；

根据所述回报值，生成所述计算任务中每个子任务的目标卸载策略，其中，所述目标卸载策略用于确定所述子任务的目标卸载位置。

2.根据权利要求1所述的方法，其特征在于，在所述将所述系统状态输入目标神经网络之前，所述方法还包括：

获取训练样本；

根据所述训练样本和评估神经网络，得到训练回报值；

根据所述训练样本和参考神经网络，得到参考回报值，其中，所述参考神经网络和所述评估神经网络结构相同；

根据所述训练回报值、所述参考回报值以及误差函数，得到损失值；

根据所述损失值调整所述评估神经网络的第一参数，每隔预设步长，将所述参考神经网络的第二参数修改为对应的所述评估神经网络的第一参数，并从所述获取训练样本开始执行后续步骤，如果调整所述第一参数的次数达到第一预设阈值或所述损失值小于第二预设阈值的次数达到第三预设阈值，则停止训练，将所述参考神经网络作为所述目标神经网络。

3.根据权利要求2所述的方法，其特征在于，在所述获取训练样本之前，所述方法还包括：

获取历史计算任务和所述历史计算任务对应的历史系统状态；

将所述历史系统状态输入预先训练的神经网络，得到所有候选动作的状态动作值；

根据预设策略、所述候选动作以及所述状态动作值，得到目标动作；

执行所述目标动作，得到所述历史系统状态的下一系统状态和所述目标动作的奖励值；

将所述历史系统状态、所述目标动作、所述下一系统状态以及所述奖励值作为一个所述训练样本，并保存所述训练样本。

4.根据权利要求3所述的方法，其特征在于，在所述将所述历史系统状态输入预先训练的神经网络之前，所述方法还包括：

获取完成所述子任务所消耗的总成本；

根据所述总成本，生成多目标优化问题，并获取所述多目标优化问题的约束条件；

根据所述多目标优化问题和所述约束条件，构建统计模型的状态空间、动作空间以及奖励函数，其中，所述奖励函数是根据所述总成本得到的；

根据所述状态空间、所述动作空间以及所述奖励函数，生成所述预先训练的神经网络、所述评估神经网络以及所述参考神经网络。

5.根据权利要求4所述的方法，其特征在于，所述获取完成所述子任务所消耗的总成本，包括：

获取本地设备的第一计算能力和计算功率，其中，所述本地设备包含于所述智算融合网络系统；

根据所述子任务、所述第一计算能力以及所述计算功率，得到所述子任务在所述本地设备执行所需要的第一成本；

获取算力节点对应的传输速率、第二计算能力、所述本地设备的等待功率以及发射功率，其中，所述算力节点包含于所述智算融合网络系统；

根据所述子任务、所述传输速率、所述第二计算能力、所述等待功率以及所述发射功率，得到所述子任务在所述算力节点执行所需要的第二成本；

根据所述第一成本、所述第二成本以及第一预设公式，得到所述总成本。

6.根据权利要求5所述的方法，其特征在于，所述根据所述子任务、所述第一计算能力以及所述计算功率，得到所述子任务在所述本地设备执行所需要的第一成本，包括：

根据所述子任务，得到所述子任务的计算资源需求；

根据所述第一计算能力、所述计算资源需求以及第二预设公式，得到所述本地设备处理所述子任务的第一消耗时间；

根据所述计算功率、所述第一消耗时间以及第三预设公式，得到所述本地设备处理所述子任务的第一能耗；

根据所述第一消耗时间、所述第一能耗、预设权重系数以及第四预设公式，得到所述第一成本。

7.根据权利要求5所述的方法，其特征在于，所述根据所述子任务、所述传输速率、所述第二计算能力、所述等待功率以及所述发射功率，得到所述子任务在所述算力节点执行所需要的第二成本，包括：

根据所述子任务，得到所述子任务的输入数据长度和计算资源需求；

根据所述计算资源需求、所述第二计算能力以及第五预设公式，得到所述算力节点处理所述子任务的第二消耗时间；

根据所述传输速率、所述输入数据长度以及第六预设公式，得到传输时延；

根据所述第二消耗时间和所述传输时延，得到所述算力节点的总时延；

根据所述发射功率、所述输入数据长度、所述传输速率以及第七预设公式，得到传输能耗；

根据所述等待功率和所述第二消耗时间，得到等待能耗；

根据所述传输能耗和所述等待能耗，得到所述算力节点的总能耗；

根据所述总时延、所述总能耗、预设权重系数以及第八预设公式，得到所述第二成本。

8.一种确定计算任务卸载策略的装置，其特征在于，所述装置包括：

第一获取模块，用于获取计算任务，其中，所述计算任务包含预设数量个子任务；

第二获取模块，用于根据所述计算任务，获取智算融合网络系统的系统状态，其中，所述智算融合网络系统用于处理所述计算任务；

第一得到模块，用于将所述系统状态输入目标神经网络，得到每个所述子任务的候选卸载位置的回报值，其中，所述候选卸载位置包含于所述智算融合网络系统；

第一生成模块，用于根据所述回报值，生成所述计算任务中每个子任务的目标卸载策略，其中，所述目标卸载策略用于确定所述子任务的目标卸载位置。

9.一种计算机设备，其特征在于，包括：

存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行权利要求1至7中任一项所述的确定计算任务卸载策略的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机指令，所述计算机指令用于使计算机执行权利要求1至7中任一项所述的确定计算任务卸载策略的方法。