CN116566975A

CN116566975A - 一种端边协作模型推理方法、装置和相关设备

Info

Publication number: CN116566975A
Application number: CN202210094620.0A
Authority: CN
Inventors: 邓娟; 刘光毅
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Priority date: 2022-01-26
Filing date: 2022-01-26
Publication date: 2023-08-08

Abstract

本申请公开了一种端边协作模型推理方法、装置和相关设备，涉及通信技术领域，以解决现有端边协作推理方案未考虑终端和网络侧分别拥有的不同计算资源的区别，导致模型推理性能较差。该方法包括：向网络设备发送携带模型信息的推理请求消息；接收网络设备发送的推理回复消息；在推理回复消息指示网络设备同意协作推理的情况下，根据网络设备的状态信息和终端的状态信息，生成终端的第一决策动作和网络设备的第二决策动作；对第一决策动作中指示的终端负责计算的第一模型部分分配计算资源，进行第一模型部分的模型推理计算；向网络设备发送第二决策动作。本申请实施例可提高模型推理性能。

Description

一种端边协作模型推理方法、装置和相关设备

技术领域

本申请涉及通信技术领域，尤其涉及一种端边协作模型推理方法、装置和相关设备。

背景技术

基于模型分割的端边协作推理，是指当终端需完成一项智能模型推理任务，而自身算力又不够时，通过网络侧算力资源的协助，共同完成推理任务。目前，网络侧协助方式通常是将智能模型进行切分，终端和网络各完成一部分计算，再由网络将推理结果返回给终端。

然而，现有端边协作推理方案的关注点在于模型切分点的决策，即只决定了将哪部分计算任务放在终端，哪部分计算任务放在网络侧，而未考虑终端和网络侧分别拥有的不同计算资源的区别，导致模型推理性能较差。

发明内容

本申请实施例提供一种端边协作模型推理方法、装置和相关设备，以解决现有端边协作推理方案未考虑终端和网络侧分别拥有的不同计算资源的区别，导致模型推理性能较差的问题。

第一方面，本申请实施例提供了一种端边协作模型推理方法，由终端执行，所述方法包括：

向网络设备发送携带模型信息的推理请求消息；

接收所述网络设备发送的推理回复消息，其中，所述推理回复消息中指示所述网络设备是否同意协作推理，在所述推理回复消息指示所述网络设备同意协作推理的情况下，所述推理回复消息中还携带有所述网络设备的状态信息；

在所述推理回复消息指示所述网络设备同意协作推理的情况下，根据所述网络设备的状态信息和所述终端的状态信息，生成所述终端的第一决策动作和所述网络设备的第二决策动作，所述决策动作包括负责计算的模型部分和对应的计算资源分配信息，所述状态信息至少包括计算资源状态信息；

对所述第一决策动作中指示的所述终端负责计算的第一模型部分分配计算资源，进行所述第一模型部分的模型推理计算；

向所述网络设备发送所述第二决策动作，以使所述网络设备对所述第二决策动作中指示的所述网络负责计算的第二模型部分分配计算资源，进行所述第二模型部分的模型推理计算。

可选地，所述向所述网络设备发送所述第二决策动作之后，所述方法还包括：

接收所述网络设备在更改所述第二决策动作的情况下，发送的计算资源分配更新消息，其中，所述计算资源分配更新消息中携带有所述网络设备更新的第三决策动作；

根据所述第三决策动作，调整所述第一决策动作，得到第四决策动作；

根据所述第四决策动作，重新确定所述终端负责计算的第三模型部分，并对所述第三模型部分分配计算资源，进行所述第三模型部分的模型推理计算。

可选地，所述对所述第一决策动作中指示的所述终端负责计算的第一模型部分分配计算资源，进行所述第一模型部分的模型推理计算，包括：

向所述终端的计算资源管理模块发送第一计算资源分配建议消息，其中，所述第一计算资源分配建议消息中携带有所述第一模型部分的参数、所述第一模型部分中每层的计算资源类型和计算资源数量、层间计算的时序和数据传输关系；

通过所述计算资源管理模块根据所述第一计算资源分配建议消息，将所述第一模型部分中不同层的计算任务分配至所述终端的不同类型的计算资源，并配置各类计算资源之间的数据传输关系。

可选地，所述方法还包括：

向所述网络设备发送所述第一模型部分的模型推理中间结果，以使所述网络设备整合所述第一模型部分的模型推理中间结果和所述第二模型部分的模型推理中间结果，得到模型协作推理结果；

接收所述网络设备发送的所述模型协作推理结果。

可选地，所述方法还包括：

获取模型推理性能参数，所述模型推理性能参数包括推理准确度、平均推理时延和平均单次推理能耗中的至少一项；

基于所述模型推理性能参数，计算奖励信息；

收集每次协作推理中的状态信息、决策动作和奖励信息，作为所述终端与所述网络设备进行模型协作推理所采用的强化学习模型的训练样本，训练优化所述强化学习模型。

可选地，所述获取模型推理性能参数，包括：

统计所述终端在预设时长内的推理准确度、平均推理时延和平均单次推理能耗；

接收所述网络设备发送的推理能耗信息，其中，所述推理能耗信息包括所述网络设备在所述预设时长内的平均单次推理能耗值或者所述网络设备平均单次推理消耗的算力值。

可选地，所述方法还包括：

接收所述网络设备发送的状态更新消息，其中，所述状态更新消息包括所述网络设备更新的状态信息；

和/或，在监测到所述终端的状态信息发生变化的情况下，向所述网络设备发送状态更新请求消息；接收所述网络设备发送的最新状态信息；

根据所述终端和/或所述网络设备更新后的状态信息，重新生成所述终端的决策动作和所述网络设备的决策动作；

在重新生成的所述网络设备的决策动作有更新的情况下，向所述网络设备发送所述网络设备更新后的决策动作。

第二方面，本申请实施例还提供一种端边协作模型推理方法，由网络设备执行，所述方法包括：

接收终端发送的携带模型信息的推理请求消息；

获取所述网络设备的状态信息，其中，所述状态信息至少包括计算资源状态信息；

根据所述网络设备的状态信息，生成推理回复消息，所述推理回复消息中指示所述网络设备是否同意协作推理；

向所述终端发送所述推理回复消息，其中，在所述网络设备同意协作推理的情况下，所述推理回复消息中还携带有所述网络设备的状态信息；

在所述网络设备同意协作推理的情况下，接收所述终端发送的第二决策动作，其中，所述第二决策动作是所述终端根据所述网络设备的状态信息和所述终端的状态信息生成的所述网络设备的决策动作，所述决策动作包括负责计算的模型部分和对应的计算资源分配信息；

对所述第二决策动作中指示的所述网络设备负责计算的第二模型部分分配计算资源，进行所述第二模型部分的模型推理计算。

可选地，所述获取所述网络设备的状态信息，包括：

向所述网络设备的无线资源管理RRM模块发送无线信道质量信息请求消息；接收所述RRM模块返回的携带所述终端的上下行无线信道质量信息的无线信道质量信息回复消息；

向所述网络设备的计算资源管理CRM模块发送携带计算任务信息的计算资源信息请求消息；接收所述CRM模块返回的携带所述网络设备的计算资源状态信息的计算资源信息回复消息；

向所述网络设备的计算性能模型管理CPMM模块发送计算性能模型请求消息，其中，所述计算性能模型请求消息中携带有所述网络设备的剩余计算资源类型信息和模型层类型信息；接收所述CPMM模块返回的携带计算性能模型信息的计算性能模型回复消息。

可选地，所述对所述第二决策动作中指示的所述网络设备负责计算的第二模型部分分配计算资源，进行所述第二模型部分的模型推理计算，包括：

根据所述网络设备的资源状态信息、用户优先级和业务优先级中的至少一项，确定是否执行所述第二决策动作；

在确定执行所述第二决策动作的情况下，对所述第二决策动作中指示的所述网络设备负责计算的第二模型部分分配计算资源，进行所述第二模型部分的模型推理计算；

在确定不执行所述第二决策动作的情况下，更改所述第二决策动作，并向所述终端发送计算资源分配更新消息，其中，所述计算资源分配更新消息中携带有所述网络设备更新的第三决策动作；

对所述第三决策动作中指示的所述网络设备负责计算的第四模型部分分配计算资源，进行所述第四模型部分的模型推理计算。

向所述网络设备的RRM模块发送无线资源分配建议消息，其中，所述无线资源分配建议消息中携带有为模型推理计算任务分配的上下行信道带宽；

向所述网络设备的CRM模块发送第二计算资源分配建议消息，其中，所述第二计算资源分配建议消息包括所述第二模型部分的参数、所述第二模型部分中每层的计算资源类型和计算资源数量、层间计算的时序和数据传输关系；

通过所述网络设备的CRM模块根据所述第二计算资源分配建议消息，将所述第二模型部分中不同层的计算任务分配至所述网络设备的不同类型的计算资源，并配置各类计算资源之间的数据传输关系。

可选地，所述方法还包括：

接收所述终端发送的第一模型部分的模型推理中间结果；

整合所述第一模型部分的模型推理中间结果和所述第二模型部分的模型推理中间结果，得到模型协作推理结果；

向所述终端发送所述模型协作推理结果。

可选地，所述方法还包括：

统计所述网络设备的推理能耗信息，其中，所述推理能耗信息包括所述网络设备在预设时长内的平均单次推理能耗值或者所述网络设备平均单次推理消耗的算力值；

向所述终端发送所述推理能耗信息。

可选地，所述方法还包括：

在监测到所述网络设备的状态信息发生变化的情况下，向所述终端发送状态更新消息，其中，所述状态更新消息包括所述网络设备更新的状态信息；

和/或，接收所述终端发送的状态更新请求消息；向所述终端发送所述网络设备的最新状态信息。

第三方面，本申请实施例提供了一种终端，包括：

第一发送模块，用于向网络设备发送携带模型信息的推理请求消息；

第一接收模块，用于接收所述网络设备发送的推理回复消息，其中，所述推理回复消息中指示所述网络设备是否同意协作推理，在所述推理回复消息指示所述网络设备同意协作推理的情况下，所述推理回复消息中还携带有所述网络设备的状态信息；

第一生成模块，用于在所述推理回复消息指示所述网络设备同意协作推理的情况下，根据所述网络设备的状态信息和所述终端的状态信息，生成所述终端的第一决策动作和所述网络设备的第二决策动作，所述决策动作包括负责计算的模型部分和对应的计算资源分配信息，所述状态信息至少包括计算资源状态信息；

第一处理模块，用于对所述第一决策动作中指示的所述终端负责计算的第一模型部分分配计算资源，进行所述第一模型部分的模型推理计算；

第二发送模块，用于向所述网络设备发送所述第二决策动作，以使所述网络设备对所述第二决策动作中指示的所述网络负责计算的第二模型部分分配计算资源，进行所述第二模型部分的模型推理计算。

第四方面，本申请实施例提供了一种网络设备，包括：

第二接收模块，用于接收终端发送的携带模型信息的推理请求消息；

第一获取模块，用于获取所述网络设备的状态信息，其中，所述状态信息至少包括计算资源状态信息；

第二生成模块，用于根据所述网络设备的状态信息，生成推理回复消息，所述推理回复消息中指示所述网络设备是否同意协作推理；

第三发送模块，用于向所述终端发送所述推理回复消息，其中，在所述网络设备同意协作推理的情况下，所述推理回复消息中还携带有所述网络设备的状态信息；

第三接收模块，用于在所述网络设备同意协作推理的情况下，接收所述终端发送的第二决策动作，其中，所述第二决策动作是所述终端根据所述网络设备的状态信息和所述终端的状态信息生成的所述网络设备的决策动作，所述决策动作包括负责计算的模型部分和对应的计算资源分配信息；

第二处理模块，用于对所述第二决策动作中指示的所述网络设备负责计算的第二模型部分分配计算资源，进行所述第二模型部分的模型推理计算。

第五方面，本申请实施例还提供一种终端，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面所述的端边协作模型推理方法中的步骤。

第六方面，本申请实施例还提供一种网络设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第二方面所述的端边协作模型推理方法中的步骤。

第七方面，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如第一方面和第二方面所述的端边协作模型推理方法中的步骤。

本申请实施例的端边协作模型推理方法由终端执行，终端向网络设备发送携带模型信息的推理请求消息；接收网络设备发送的推理回复消息，其中，推理回复消息中还携带有网络设备的状态信息。根据网络设备的状态信息和终端的状态信息，生成终端的第一决策动作和网络设备的第二决策动作。在本实施例中，第一决策动作和第二决策动作是基于网络设备的状态信息和终端的状态信息生成的，因此在对推理模型进行切分时，考虑到了网络设备和终端的计算资源的区别，使得推理模型的切分更加合理，进而提高了模型推理性能。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的端边协作模型推理方法的流程图之一；

图2是本申请实施例提供的端边协作模型推理方法的流程图之二；

图3是本申请实施例提供的端边协作模型推理方法的流程图之三；

图4是本申请实施例提供的终端的结构图之一；

图5是本申请实施例提供的网络设备的结构图之一；

图6是本申请实施例提供的终端的结构图之二；

图7是本申请实施例提供的网络设备的结构图之二。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参见图1，图1是本申请实施例提供的端边协作模型推理方法的流程图之一，如图1所示，所述端边协作模型推理方法，由终端执行，所述端边协作模型推理方法包括以下步骤：

步骤101，向网络设备发送携带模型信息的推理请求消息。

首先，终端向网络设备发送推理请求信息，该推理请求信息携带有模型信息。在本实施例中，所述模型信息可以包括以下至少一者：终端标识、模型的层数、每层模型的类型、每层模型的计算量参数变量值。在另一些实施例中，所述模型信息还可以包括以下至少一者：所述终端建议网络设备计算的层序号、终端对网络设备推理计算的时延要求、终端对上下行空口传输时延要求、终端对网络设备单次推理能耗要求。

具体地，所述终端标识可以为终端临时标识和已有无线资源控制(RadioResource Control，RRC)连接的身份标识号(Identity document，ID)等。所述每层模型的类型为神经网络层类型，其具体类型在此不做限定。例如，在一些实施例中，所述每层模型的类型可以为以下任一者：卷积层、激活层、池化层、全连接层、丢弃(Dropout)层和本地响应正则化层。

所述网络设备接收到所述终端发送的携带模型信息的推理请求消息。在本实施例中，所述计算资源状态信息可以理解为所述网络设备剩余的可分配计算资源的状态信息。所述网络设备获取所述网络设备的状态信息，其中，所述状态信息至少包括计算资源状态信息。

应理解的是，在一些实施例中，所述网络设备包括第一交互模块。所述终端包括第二交互模块，所述网络设备的第一交互模块可以用于与所述终端的第二交互模块进行交互。且所述第一交互模块还可以与所述网络设备的其他模块之间进行交互。所述第二交互模块还可以与所述终端的其他模块之间进行交互。

具体地，获取所述网络设备的状态信息可以理解为以下交互过程：所述第一交互模块向所述网络设备的无线资源管理(Radio Resource Management， RRM)模块发送无线信道质量信息请求消息。

应理解的是，所述无线信道质量请求消息用于向RRM模块获取所述终端的上下行无线信道质量信息。其中，所述无线信道质量信息请求消息中可以包括终端标识。其中，所述终端标识的具体内容在此不再限定。例如，在一些实施例中，所述终端标识可以包括所述终端临时标识和已有RRC连接的ID等。其中，所述终端的上下行无线信道质量信息的统计指标在此不做限定。例如，在一些实施例中，所述终端的上下行无线信道质量信息可以使用信道质量指示 (Channel Quality Indicator，CQI)反映。在另一些实施例中，所述终端的上下行无线信道质量信息可以使用接收的信号强度指示(Received Signal StrengthIndication，RSSI)反映。

所述第一交互模块接收所述网络设备的RRM模块返回携带所述终端的上下行无线信道质量信息的无线信道质量信息回复消息。

应理解的是，在一些实施例中，所述无线信道质量信息回复消息包括所述终端的上下行无线信道质量信息，例如CQI。在一些实施例中，所述无线信道质量信息回复消息还包括已为该终端分配的上下行无线信道带宽信息。

所述第一交互模块向所述网络设备的计算资源管理(Compute ResourceManagement，CRM)模块发送携带计算任务信息的计算资源信息请求消息。

应理解的是，在一些实施例中，所述计算资源信息请求消息中可以包括终端标识、计算任务类型描述、层类型的描述、层类型计算量的统计描述、运算操作类型的描述或运算操作类型计算量的统计描述。

应理解的是，所述终端标识的具体内容在此不再限定。例如，在一些实施例中，所述终端标识可以包括所述终端临时标识和已有RRC连接的ID等。所述计算任务类型可以理解为模型推理。所述层类型可以理解为卷积层、激活层、池化层、全连接层、丢弃(Dropout)层和本地响应正则化层。所述层类型计算量的统计描述可以理解为上述的每种层类型的计算量。所述运算操作类型可以为乘加运算、异或运算或激活函数运算。所述运算操作类型计算量可以理解为上述的每种运算操作类型的计算量。

所述第一交互模块接收所述CRM模块返回的携带所述网络设备的计算资源状态信息的计算资源信息回复消息。

应理解的是，所述计算资源信息回复消息中可以包括所述网络设备剩余可分配计算资源的类型和每种类型计算资源的剩余可分配数量。

应理解的是，所述可分配计算资源的类型在此不做限定，例如，在一些实施例中，所述计算资源的类型可以为以下至少一种：中央处理器(central processing unit，CPU)，图形处理器(graphics processing unit，GPU)，网络处理器(Neural-network ProcessingUnit，NPU)。

应理解的是，每种类型计算资源的剩余可分配数量可以理解为，每种类型的计算资源的剩余算力。其中，在一些实施例中，算力可以使用每种类型的计算资源的利用率来描述。在另一些实施例中，算力可以使用各量化等级的每秒所执行的浮点运算次数(floating-point operations per second，FLOPS)来描述。在另一些实施例中，所述算力还可以使用基本计算单元个数来描述，例如，乘积累积运算(Multiply Accumulate，MAC)运算单元和计算核。

所述第一交互模块向所述网络设备的计算性能模型管理(compute performancemodel management，CPMM)模块发送计算性能模型请求消息，其中，所述计算性能模型请求消息中携带有所述网络设备的剩余计算资源类型信息和模型层类型信息。

所述第一交互模块接收所述CPMM模块返回的携带计算性能模型信息的计算性能模型回复消息。

应理解的是，所述计算性能模型回复消息携带有计算性能模型信息可以理解为，所述计算性能模型回复消息携带有每种计算资源类型对每一种层类型的计算性能模型。例如，在一些实施例中，所述计算资源类型一共有三种，层类型也有三种。在本实施例中，对应的计算性能模型则有九种。

然后，所述网络设备根据所述网络设备的状态信息，生成推理回复消息，所述推理回复消息中指示所述网络设备是否同意协作推理。所述网络设备向所述终端发送所述推理回复消息。

应理解的是，所述推理回复消息中指示所述网络设备是否同意协作推理可以理解为，所述推理回复消息中包括指示结果，所述指示结果可以为同意协作推理或不同意协作推理。

应理解的是，根据所述指示结果的不同，所述推理回复消息中包括的内容也可以不同。其中，在所述网络设备同意协作推理的情况下，所述推理回复消息中还携带有所述网络设备的状态信息。在所述网络设备不同意协作推理的情况下，所述推理回复消息中仅携带有所述指示结果。

应理解的是，在一些实施例中，所述网络设备的状态信息可以包括一下至少一项：网络设备内各类型计算资源的剩余可分配算力、网络设备对应小区剩余可分配上下行空口信道传输资源和上行信道质量。

应理解的是，在一些实施例中，所述网络设备对应小区剩余可分配上下行空口信道传输资源可以理解为或者表示为资源块(Resource Block，RB)数。所述终端上行信道质量可以理解为或者表示为CQI或RSSI。

应理解的是，在另一些实施例中，所述网络设备的状态信息还可以包括：网络设备内各类型计算资源之间的传输带宽，其中，所述传输带宽的单位可以为Mbps或Gbps。在另一些实施例中，所述网络设备的状态信息还可以包括所述网络设备为该终端的该推理任务可分配的计算资源所对应的计算性能模型。

步骤102，接收所述网络设备发送的推理回复消息，其中，所述推理回复消息中指示所述网络设备是否同意协作推理，在所述推理回复消息指示所述网络设备同意协作推理的情况下，所述推理回复消息中还携带有所述网络设备的状态信息。

应理解的是，所述终端接收所述网络设备发送的推理回复消息。在所述推理回复消息指示所述网络设备同意协作推理的情况下，所述终端基于所述推理回复消息执行后续的步骤。在所述推理回复消息指示所述网络设备不同意协作推理的情况下，所述终端可以停止执行后续的步骤，或者重新向所述网络设备发送推理请求消息。

步骤103，在所述推理回复消息指示所述网络设备同意协作推理的情况下，根据所述网络设备的状态信息和所述终端的状态信息，生成所述终端的第一决策动作和所述网络设备的第二决策动作，所述决策动作包括负责计算的模型部分和对应的计算资源分配信息，所述状态信息至少包括计算资源状态信息。

所述终端可以接收到所述网络设备发送的推理回复消息。在所述推理回复消息指示所述网络设备同意协作推理的情况下，所述推理回复消息中还携带有所述网络设备的状态信息。

所述终端可以根据所述网络设备的状态信息和所述终端的状态信息，生成所述终端的第一决策动作和所述网络设备的第二决策动作。其中，所述终端的状态信息为所述终端获取的。其中，所述终端的状态信息可以包括以下至少一项：终端内各类型计算资源的剩余可分配算力、终端对应小区剩余可分配上下行空口信道传输资源和下行信道质量。

根据前述内容可知，状态信息包括网络设备的状态信息和终端的状态信息。其中，所述网络设备的状态信息包括网络设备内各类型计算资源的剩余可分配算力(例如各量化等级的FLOPS、基本计算单元的个数(如MAC运算单元、计算核)、利用率、物理计算资源的上述描述或虚拟计算资源的上述描述)、网络设备内各类型计算资源之间的传输带宽、网络设备对应小区剩余可分配上下行空口信道传输资源(例如RB数)、终端上行信道质量(例如CQI和RSSI)。

所述终端的状态信息包括终端内各类型计算资源的剩余可分配算力(例如各量化等级的FLOPS、基本计算单元的个数(例如MAC运算单元、计算核)、利用率、物理计算资源的上述描述或虚拟计算资源的上述描述)、终端内各类型计算资源之间的传输带宽和终端下行信道质量(例如CQI和RSSI)。

步骤104，对所述第一决策动作中指示的所述终端负责计算的第一模型部分分配计算资源，进行所述第一模型部分的模型推理计算。其中，所述终端对所述第一决策动作中指示的所述终端负责计算的第一模型部分分配计算资源，进行所述第一模型部分的模型推理计算的具体方式在此不做限定。

例如，可选地，在一些实施例中，所述步骤104包括以下步骤：

通过所述计算资源管理模块根据所述第一计算资源分配建议消息，将所述第一模型部分中不同层的计算任务分配至所述终端的不同类型的计算资源，并配置各类计算资源之间的数据传输关系。所述第一决策动作中指示有所述终端负责计算的第一模型部分分配计算资源。

在本实施例中，所述终端向所述终端的计算资源管理模块发送第一计算资源分配建议消息，其中，第一计算资源分配建议消息中携带有第一模型部分的参数、第一模型部分中每层的计算资源类型和计算资源数量、层间计算的时序和数据传输关系。通过第一计算资源分配建议消息，终端的计算资源管理模块可以完成计算资源的分配，使得终端上的计算资源分配更加合理。

应理解的是，所述终端向所述终端的计算资源管理模块发送第一计算资源分配建议消息可以理解为，根据第一决策动作，所述终端的第二交互模块向所述终端的计算资源管理模块发送携带有其负责的第一模型部分的模型参数和对应的计算资源分配信息的计算资源分配消息。

在本实施例中，所述计算资源分配消息包括以下至少一项：所述计算资源分配消息包括模型部分参数、负责每一层计算的计算资源类型、计算资源数量、层间计算的时序和数据传输关系。

所述CRM模块在接收到所述计算资源分配消息后，将不同层的计算任务发配到不同处的计算资源上，并配置计算资源之间的数据传输关系。所述第一模型部分的模型推理计算将在其对应的计算资源上完成。

应理解的是，所述终端执行决策动作可以理解为，所述终端的第二交互模块向所述终端的CRM模块发送计算资源分配建议消息，所述终端的CMR模块响应于所述计算资源分配建议消息，将不同层的计算任务发配到不同处的终端的计算资源上，并配置计算资源之间的数据传输关系。

步骤105，向所述网络设备发送所述第二决策动作，以使所述网络设备对所述第二决策动作中指示的所述网络负责计算的第二模型部分分配计算资源，进行所述第二模型部分的模型推理计算。

所述终端向所述网络设备发送生成的所述第二决策动作。其中，所述第二决策动作包括以下至少一项：网络设备负责计算的部分模型对应的模型参数、每一层计算的计算资源类型、计算资源数量、层间计算的时序和数据传输关系。在另一些实施例中，所述第二决策动作还包括上下行带宽分配建议，例如上下行保障数据速率。在另一些实施例中，所述第二决策动作还可以包括终端计算任务发配成功指示。

所述网络设备接收所述终端发送的第二决策动作。对所述第二决策动作中指示的所述网络设备负责计算的第二模型部分分配计算资源，进行所述第二模型部分的模型推理计算。

应理解的是，所述网络设备对所述第二决策动作中指示的所述网络设备负责计算的第二模型部分分配计算资源，进行所述第二模型部分的模型推理计算的具体方法在此不做限定。

应理解的是，所述网络设备执行决策动作可以理解为，所述网络设备的第一交互模块向所述网络设备的CRM模块发送计算资源分配建议消息，所述网络设备的CMR模块响应于所述计算资源分配建议消息，将不同层的计算任务发配到不同处的网络设备的计算资源上，并配置计算资源之间的数据传输关系。

在一些实施例中，所述网络设备在接收到所述终端发送的决策动作后，会首先根据所述网络设备的资源状态信息、用户优先级和业务优先级中的至少一项，确定是否执行所述第二决策动作；

在本实施例中，网络设备在接收到终端发送的决策动作后，会首先根据网络设备的资源状态信息、用户优先级和业务优先级中的至少一项，确定是否执行第二决策动作。通过上述设置，网络设备在执行第二决策动作之前，会根据自身的状态判断是否需要可以执行，使得第二决策动作更加符合网络设备的当前的状态，进一步地提高了模型推理性能。

应理解的是，所述网络设备根据所述网络设备的资源状态信息、用户优先级和业务优先级中的至少一项，确定是否执行所述第二决策动作可以理解为，所述网络设备基于所述网络设备的资源状态信息、用户优先级和业务优先级中的至少一项，利用网络设备的决策动作评估和调整模块，判断所述第二决策动作是否可以执行。

在所述第二决策动作可以执行的情况下，所述网络设备确定执行所述第二决策动作。

在另一些实施例中，所述网络设备在接收到所述终端发送的决策动作后，会向所述网络设备的RRM模块发送无线资源分配建议消息，其中，所述无线资源分配建议消息中携带有为模型推理计算任务分配的上下行信道带宽；

具体地，所述网络设备的第一交互模块向所述网络设备的RRM模型发送携带有所述第二决策动作中的上下行带宽分配的无线资源分配建议消息。其中，所述无线资源分配建议消息包括建议为该终端模型协作推理任务分配的上下行信道带宽。

所述网络设备的第一交互模块向所述网络设备的CRM模块发送携带有网络设备负责的模型部分模型参数及其对应的计算资源分配信息的计算资源分配建议消息。所述计算资源分配建议消息包括模型部分参数、负责每一层计算的计算资源类型、计算资源数量、层间计算的时序和数据传输关系。

所述网络设备的CMR模块将不同模型层的计算任务发配至不同处的计算资源上，并配置计算资源之间的数据传输关系。所述第二模型部分的模型推理计算将在其对应的计算资源上完成。

在所述第二决策动作无法执行的情况下，所述网络设备确定不执行所述第二决策动作。此时，所述网络设备更改所述第二决策动作，并向所述终端发送计算资源分配更新消息，其中，所述计算资源分配更新消息中携带有所述网络设备更新的第三决策动作。

所述网络设备对所述第三决策动作中指示的所述网络设备负责计算的第四模型部分分配计算资源，进行所述第四模型部分的模型推理计算。其中，进行所述第四模型部分的模型推理计算的过程与上述的进行第二模型部分的模型推理计算过程相同，在此不再赘述。

可选地，在一些实施例中，所述终端接收所述网络设备在更改所述第二决策动作的情况下，发送的计算资源分配更新消息，其中，所述计算资源分配更新消息中携带有所述网络设备更新的第三决策动作；

在本实施例中，由于网络设备更改了第二决策动作，因此终端可以相应的调整第一决策动作，得到第四决策动作。通过上述设置，在网络设备更改了第二决策动作后，终端也可以相应地调整第一决策动作，与网络设备的第三决策的动作匹配。

具体地，所述终端在收到所述计算资源分配更新消息后，利用所述终端的决策动作评估和调整模块，根据所述第三决策动作，决定是否调整所述第一决策动作。

应理解的是，所述终端根据所述第三决策动作，调整所述第一决策动作的具体方法在此不做限定。例如，在一些实施例中，所述终端根据所述第一决策动作，具体算法可以是终端根据之前做出的原决策动作，按照新动作与原动作间距离最小的原则，计算出新动作中的终端的部分。

应理解的是，在所述终端根据所述第三决策动作，决定调整所述第一决策动作后，执行调整后的第四决策动作的过程与上述的进行第一模型部分的模型推理计算过程相同，在此不再赘述。

可选地，在一些实施例中，所述由终端执行的端边协作模型推理方法还包括以下步骤：

接收所述网络设备发送的所述模型协作推理结果。

在本实施例中，终端向网络设备发送第一模型部分的模型推理中间结果，网络设备可以得到第二模型部门的模型推理中间结果。网络设备通过整合第一模型部分的模型推理中间结果和第二模型部分的模型推理中间结果，可以得到模型协作推理结果，并和终端共享模型协作推理结果。通过上述设置，可以对模型协作推理的效果进行检验，进而根据可以模型协作推理结果实时调整协作策略，以进一步地提高模型推理性能。

应理解的是，所述第一模型部分的模型推理中间结果为所述终端进行所述第一模型部分的模型推理计算，并完成所述第一模型部分的模型推理计算后所得到的。

应理解的是，所述第二模型部分的推理中间结果为所述网络设备进行所述第二模型部分的模型推理计算，并完成所述第二模型部分的模型推理计算后所得到的。所述终端向所述网络设备发送所述第一模型部分的模型推理中间结果。所述网络设备接收所述终端发送的第一模型部分的模型推理中间结果，然后整合所述第一模型部分的模型推理中间结果和所述第二模型部分的模型推理中间结果，得到模型协作推理结果，并向所述终端发送所述模型协作推理结果。通过所述模型协作推理结果可以对模型协作推理的效果进行检验。

基于所述模型推理性能参数，计算奖励信息；

应理解的是，所述奖励信息可以包括以下至少一项：终端推理时延奖励、终端推理准确度奖励、终端能耗奖励和网络设备能耗奖励。在一些实施例中，所述奖励信息基于终端推理时延奖励、终端推理准确度奖励、终端能耗奖励和网络设备能耗奖励确定。其中，所述奖励信息基于终端推理时延奖励、终端推理准确度奖励、终端能耗奖励和网络设备能耗奖励计算的具体方式在此不做限定。

在本实施例中，使用收集到的每次协作推理中的状态信息、决策动作和奖励信息作为样本数据，训练终端的生成价值估计神经网络和决策生成神经网络。在做决策时，将实时状态输入到决策生成神经网络，即可输出决策动作。在进行推理的时候，需要获得实时采集的状态信息，生成决策动作，应用于无线系统中后，再采集获得对应的奖励信息。若状态信息发生了变化，价值估计神经网络和决策生成神经网络需及时获知新的状态信息，给出新的动作信息，再采集对应的奖励信息。

在本实施例中，基于模型推理性能参数，计算奖励信息，收集每次协作推理中的状态信息、决策动作和奖励信息，作为终端与网络设备进行模型协作推理所采用的强化学习模型的训练样本，训练优化强化学习模型。通过对强化学习模型进行优化训练，可以不断地优化决策模型，进一步地提高模型推理性能。

应理解的是，所述终端获取的模型推理性能参数为预设时间长度内的模型性能推理参数。在具体实现时，所述模型性能参数可以为网络设备平均单次推理能耗统计值，也可以包括所述网络设备平均单次推理消耗的算力统计值。

应理解的是，获取模型推理性能参数的具体方法在此不做限定。例如，可选地，在一些实施例中，所述获取模型推理性能参数具体包括以下步骤：

在所述终端统计所述终端在预设时长内的推理准确度、平均推理时延和平均单次推理能耗的情况下，所述网络设备统计所述网络设备的推理能耗信息，其中，所述推理能耗信息包括所述网络设备在预设时长内的平均单次推理能耗值或者所述网络设备平均单次推理消耗的算力值。

所述网络设备向所述终端发送所述推理能耗信息。所述终端接收所述网络设备发送的推理能耗信息。

应理解的是，所述模型推理性能参数包括所述终端在预设时长内的推理准确度、平均推理时延和平均单次推理能耗和所述网络设备统计的推理能耗信息。

应理解的是，基于所述模型推理性能参数，计算奖励信息的具体方法在此不做限定。

应理解的是，所述每次协作推理中的状态信息包括终端的状态信息和网络设备的状态信息。所述每次协作推理中的决策动作包括终端执行的决策动作和网络设备执行的决策动作，例如，在一些实施例中，所述每次协作推理中的决策动作可以包括以下至少一项：第一决策动作、第二决策动作、第三决策动作和第四决策动作。

在本实施例中，在网络设备和终端中至少一者的状态发生变化的情况下，终端可以根据终端和/或网络设备更新后的状态信息，重新生成终端的决策动作和网络设备的决策动作。通过上述设置，可以根据网络设备和终端的实时状态对决策动作进行调整，使得决策动作更加适应于网络设备和终端当前的状态，进一步地提高模型推理性能。

应理解的是，所述网络设备的状态信息发生变化可以理解为，所述网络设备的状态信息中任一个变量的变化值超过阈值，或者所述网络设备推理计算任务分配的所述计算资源类型发生了变化。

应理解的是，所述终端的状态信息发生变化可以理解为，所述终端的状态信息中任一个变量的变化值超过阈值，或者所述终端的推理计算任务分配的所述计算资源类型发生了变化。

应理解的是，所述网络设备更新的状态信息的具体内容在此不做限定。例如，在一些实施例中，所述网络设备更新的状态信息包括所述网络设备更新的变量和该变量的变化值。在另一些实施例中，所述网络设备的推理计算任务分配的所述计算资源类型由CPU变化为GPU，则所述网络设备更新的状态信息包括GPU对应的计算性能模型。

应理解的是，所述终端更新的状态信息的具体内容在此不做限定。例如，在一些实施例中，所述终端更新的状态信息包括所述网络设备更新的变量和该变量的变化值。在另一些实施例中，所述终端的推理计算任务分配的所述计算资源类型由CPU变化为GPU，则所述终端更新的状态信息包括GPU对应的计算性能模型。

在一种情况下，所述网络设备在监测到所述网络设备的状态信息发生变化的情况下，向所述终端发送状态更新消息，其中，所述状态更新消息包括所述网络设备更新的状态信息。

在这种情况下，所述终端根据所述网络设备更新后的状态信息，重新生成所述终端的决策动作和所述网络设备的决策动作。在重新生成的所述网络设备的决策动作有更新的情况下，所述终端向所述网络设备发送所述网络设备更新后的决策动作。

在另一种情况下，所述终端检测到所述终端的状态信息发生变化的情况下，向所述网络设备发送状态更新请求消息。所述网络设备接收所述终端发送的状态更新请求消息。响应于所述状态更新请求，所述网络设备向所述终端发送所述网络设备的最新状态信息。

在这种情况下，所述终端根据所述终端更新后的状态信息，重新生成所述终端的决策动作和所述网络设备的决策动作。在重新生成的所述网络设备的决策动作有更新的情况下，所述终端向所述网络设备发送所述网络设备更新后的决策动作。

应理解的是，在具体实现时，所述终端的状态信息和所述网络设备的状态信息中至少一者发生变化，即上述两种情况至少发生一种，所述终端即可以更新决策信息。

应理解的是，在上述两种情况下，如果重新生成的所述网络设备的决策动作没有更新的情况下，所述终端不需要向所述网络设备发送所述网络设备更新后的决策动作。

根据前述内容可知，决策动作包括网络设备执行的决策动作和终端执行的决策动作。所述网络设备执行的决策动作包括网络设备负责计算的模型部分 (模型参数)、用于本次推理任务的上行带宽分配建议(例如上行RB数和上行保障数据速率)、下行带宽分配建议(例如下行RB数和下行保障数据速率)、网络设备用于模型计算的计算资源分配(分配给网络设备的模型部分中、每一层放在哪一类计算资源计算、为该层分配的计算资源数量(例如FLOPS、计算单元个数或利用率))。

所述终端执行的决策动作包括终端负责计算的模型部分(模型参数)、用于模型计算的计算资源分配(例如分配给终端的模型部分中、每一层放在哪一类计算资源计算、为该层分配的计算资源数量(例如FLOPS、计算单元个数或利用率))。

具体地，决策动作可以为第一决策动作、第二决策动作、第三决策动作或第四决策动作。

参见图2，图2是本申请实施例提供的端边协作模型推理方法的流程图之二，如图2所示，所述由网络设备执行的端边协作模型推理方法包括以下步骤：

步骤201，接收终端发送的携带模型信息的推理请求消息；

步骤202，获取所述网络设备的状态信息，其中，所述状态信息至少包括计算资源状态信息；

步骤203，根据所述网络设备的状态信息，生成推理回复消息，所述推理回复消息中指示所述网络设备是否同意协作推理；

步骤204，向所述终端发送所述推理回复消息，其中，在所述网络设备同意协作推理的情况下，所述推理回复消息中还携带有所述网络设备的状态信息；

步骤205，在所述网络设备同意协作推理的情况下，接收所述终端发送的第二决策动作，其中，所述第二决策动作是所述终端根据所述网络设备的状态信息和所述终端的状态信息生成的所述网络设备的决策动作，所述决策动作包括负责计算的模型部分和对应的计算资源分配信息；

步骤206，对所述第二决策动作中指示的所述网络设备负责计算的第二模型部分分配计算资源，进行所述第二模型部分的模型推理计算。

可选地，所述步骤202包括：

向所述网络设备的RRM模块发送无线信道质量信息请求消息；接收所述 RRM模块返回的携带所述终端的上下行无线信道质量信息的无线信道质量信息回复消息；

向所述网络设备的CRM模块发送携带计算任务信息的计算资源信息请求消息；接收所述CRM模块返回的携带所述网络设备的计算资源状态信息的计算资源信息回复消息；

向所述网络设备的CPMM模块发送计算性能模型请求消息，其中，所述计算性能模型请求消息中携带有所述网络设备的剩余计算资源类型信息和模型层类型信息；接收所述CPMM模块返回的携带计算性能模型信息的计算性能模型回复消息。

可选地，所述步骤206包括：

可选地，所述方法还包括：

接收所述终端发送的第一模型部分的模型推理中间结果；

向所述终端发送所述模型协作推理结果。

可选地，所述方法还包括：

向所述终端发送所述推理能耗信息。

可选地，所述方法还包括：

需说明的是，本实施例作为与图1所示实例对应的网络设备的实施方式，该实施方式也可以应用于图1对应的实施例中以及达到相同的有益效果，其具体实施方式可以参见图1所示实施例中的相关介绍，为避免重复，此处不再赘述。

请参见图3，图3是本申请实施例提供的端边协作模型推理方法的流程图之三。如图3所示，下面将以一个具体的实施例为例，介绍所述端边协作模型推理方法的具体流程。

首先需要说明的是，在本实施例中，所述终端的计算资源类型有三种，分别为：CPU、GPU和DSP。所述网络设备的计算资源类型有两种，分别为CPU 和GPU。推理模型为深度神经网络(Deep Neural Networks，DNN)模型，具体地，所述推理模型为MobileNet v1。该模型由14个卷积层和1个全连接层构成，且该模型的15个网络层的序号由1至15依次编号。

在本实施例中，所述终端的计算资源的硬件信息如下表所示：

表1终端的计算资源的硬件信息

在本实施例中，所述MobileNet v1的网络结构为深度可分离卷积(DepthwiseSeparable Convolution，DSC)网络。具体地，DSC网络由深度卷积(Depthwise，DW)和逐点卷积(Pointwise，PW)构成，其中，DW和PW应看作一层。所述MobileNet v1神经网络模型的结构信息和每层的计算参数如下所示：

首先，所述终端向网络设备发送携带模型信息的推理请求消息。所述推理请求信息包括终端标识或终端已有连接标识、MobileNet v1神经网络模型的结构信息、终端建议网络设备计算的层序号、终端对网络设备推理计算的时延要求、终端对上下行空口传输时延要求、终端对网络设备单次推理能耗要求。其中，在本实施例中，终端建议网络设备计算的层序号为5～15。

所述网络设备接收到所述终端发送的携带模型信息的推理请求消息，然后获取所述网络设备的状态信息。在本实施例中，所述网络设备的状态信息包括网络设备的计算资源状态信息、网络设备的信道质量信息、网络设备可分配上下行空口资源和网络设备的频带宽度，具体如下所述：

其中，所述网络设备的计算资源状态信息如下表所示：

表2网络设备的计算资源状态信息

资源编号	资源类型	参数类型	参数值
				1	虚拟CPU资源	利用率	50％
3	虚拟GPU资源	计算单元个数	100
				4	虚拟GPU资源	计算单元个数	50

所述网络设备的信道质量信息如下：上行信号CQI为5，下行信号CQI 为10。所述网络设备可分配上下行空口资源如下：上行为10个RB，下行为 30个RB。所述网络设备的频带宽度(Band Width，BW)信息如下：资源编号1，3：10Gbps；资源编号1，4：40Gbps；资源编号3，4：100Gbps。

根据所述网络设备的状态信息，所述网络设备生成推理回复消息，并向所述终端发送所述推理回复消息。其中，所述推理回复消息指示所述网络设备同意协作推理。在本实施例中，所述推理回复消息包括上述的网络设备的状态信息和网络设备的性能计算模型。其中，所述网络设备的性能计算模型的输入参数包括可分配计算资源数量信息和层计算量参数信息，具体如下所述：

网络设备的可分配计算资源数量信息如下：CPU可分配利用率为0～50％；资源编号为3的虚拟GPU资源可分配计算单元个数为0～100；资源编号为4 的虚拟GPU资源可分配计算单元个数为0～50。

网络设备的层计算量参数信息如下：卷积层计算量参数(每像素占用的字节数(stride)，滤波形状(filter shape)，输入大小(input size)，全连接层层计算量参数(1024，1000)，池化层计算量参数(7x7x1024，1024)，Softmax层计算量参数(1000，1)。

所述终端接收所述网络设备发送的推理回复消息。由于所述推理回复消息指示所述网络设备同意协作推理，因此，所述终端根据所述网络设备的状态信息和所述终端的状态信息，生成所述终端的第一决策动作和所述网络设备的第二决策动作。其中，所述决策动作包括负责计算的模型部分和对应的计算资源分配信息，所述状态信息至少包括计算资源状态信息。

本实施例中，所述终端的状态信息包括终端的计算资源状态信息、终端的信道质量信息和终端的BW信息，具体如下所述：

其中，所述终端的计算资源状态信息如下表所示：

表3终端的计算资源状态信息

资源编号	资源类型	参数类型	参数值
				1	物理CPU资源	利用率	50％
3	物理GPU资源	GFlops	100
				6	物理DSP资源	GFlops	40

所述终端的信道质量信息如下：下行CQI为10。

所述终端的BW信息为：资源编号1，3：10Gbps；资源编号1，6：40Gbps；资源编号3，6：50Gbps。

其中，所述终端的性能计算模型的输入参数包括可分配计算资源数量信息和层计算量参数信息，具体如下所述：

终端的可分配计算资源数量信息如下：CPU可分配利用率为0～50％。资源编号为3号的物理GPU资源可分配GFLOPs为0～100；资源编号为6号的物理DSP资源可分配GFLOPs为0～40。

终端的层计算量参数信息如下：卷积层计算量参数(stride，filter shape，input size)。

所述终端向所述终端的计算资源管理模块发送第一计算资源分配建议消息，其中，所述第一计算资源分配建议消息中携带有所述第一模型部分的参数、所述第一模型部分中每层的计算资源类型和计算资源数量、层间计算的时序和数据传输关系；通过所述计算资源管理模块根据所述第一计算资源分配建议消息，将所述第一模型部分中不同层的计算任务分配至所述终端的不同类型的计算资源，并配置各类计算资源之间的数据传输关系。

然后，所述终端向所述网络设备发送所述第二决策动作。所述网络设备接收所述终端发送的第二决策动作，所述第二决策动作包括所述网络设备负责计算的模型部分和对应的计算资源分配信息。所述网络设备根据所述网络设备的资源状态信息、用户优先级和业务优先级中的至少一项，确定是否执行所述第二决策动作；

在确定执行所述第二决策动作的情况下，所述网络设备对所述第二决策动作中指示的所述网络设备负责计算的第二模型部分分配计算资源，进行所述第二模型部分的模型推理计算。在完成所述第二模型部分的模型推理计算的情况下，所述网络设备向所述终端发送配置完成消息。

在确定不执行所述第二决策动作的情况下，所述网络设备更改所述第二决策动作。对所述第三决策动作中指示的所述网络设备负责计算的第四模型部分分配计算资源，进行所述第四模型部分的模型推理计算。

在确定不执行所述第二决策动作的情况下，所述网络设备向所述终端发送计算资源分配更新消息。所述终端接收所计算资源分配更新消息。其中，所述计算资源分配更新消息包括：网络设备负责计算的模型部分、保证比特速率 (Guaranteed Bit Rate，GBR)要求以及计算资源与层编号的映射。

在本实施例中，由于终端建议网络设备计算的层序号为5～15，因此所述网络设备负责计算的模型部分为序号5～15的网络层对应的模型参数。GBR 要求包括以下内容：上行保障速率为100Mbps；下行保障速率为150Mbps。计算资源与层编号的映射关系如下：

表4网络设备的计算资源与层编号的映射关系

在本实施例中，由于所述网络设备负责计算的模型部分为序号5～15的网络层对应的模型参数，因此所述终端负责计算的模型部分为序号1～4的网络层对应的模型参数。其中，计算资源与层编号的映射关系如下：

表5终端计算资源与层编号的映射关系

层编号	1	2	3	4
					资源类型	GPU	GPU+DSP	DSP	DSP
资源分配	80	80+20	20	30

所述终端根据所述第三决策动作，调整所述第一决策动作，得到第四决策动作；根据所述第四决策动作，重新确定所述终端负责计算的第三模型部分，并对所述第三模型部分分配计算资源，进行所述第三模型部分的模型推理计算。

所述网络设备统计所述网络设备的推理能耗信息并向所述终端发送所述推理能耗信息。在本实施例中，根据所述网络设备的推理能耗信息可以得到所述网络设备的能耗相关奖励A1满足：

其中，P1为所述网络设备的能耗的门限值，P2为所述网络设备的能耗的实际测量值。

所述终端获取模型推理性能参数，基于所述模型推理性能参数，计算奖励信息。其中，根据所述终端的推理能耗信息，可以计算得到所述终端的推理时延相关奖励A2满足：

其中，T1为所述终端的推理时延的门限值，T2为所述终端的推理时延的实际测量值。

所述终端的推理准确度相关奖励A3满足：

其中，K1为所述终端的推理准确度的门限值，K2为所述终端的推理准确度的实际测量值。

所述终端的能耗相关奖励A4满足：

其中，P3为所述终端的能耗的门限值，P4为所述终端的能耗的实际测量值。

最后，所述终端基于所述模型推理性能参数，得到奖励信息A满足：

A＝2*A1+A4+0.5*A2+0.5*A3。

所述终端收集每次协作推理中的奖励信息、终端的状态信息、网络设备的状态信息、终端的决策动作和网络设备的决策动作，并将收集的上述内容作为所述终端与所述网络设备进行模型协作推理所采用的强化学习模型的训练样本，训练优化所述强化学习模型。

在第一种情况下，在监测到所述网络设备的状态信息发生变化的情况下，向所述终端发送状态更新消息。所述终端接收所述网络设备发送的状态更新消息。

应理解的是，所述网络设备的状态信息发生变化可以理解为以下任一项发生变化：网络设备的计算资源状态信息、网络设备的信道质量信息、网络设备的可分配上下行空口资源和网络设备的BW。

在第二种情况下，在监测到所述终端的状态信息发生变化的情况下，所述终端向所述网络设备发送状态更新请求消息。所述网络设备接收所述终端发送的状态更新请求消息。响应于所述状态更新请求，所述网络设备向所述终端发送所述网络设备的最新状态信息。

在所述终端向所述网络设备发送状态更新请求消息的情况下，可以指示要求更新哪一类或几类信息的状态。例如，在本实施例中，可以指示所述网络设备更新资源状态信息、信道状态信息、也可以包括计算资源连接带宽状态信息。

所述终端的状态信息发生变化可以理解为任一项发生变化：终端的计算资源状态信息、终端的信道质量信息和终端的BW。

所述终端和所述网络设备中至少一者的状态信息更新。所述终端根据所述终端和所述网络设备中至少一者更新后的状态信息，重新生成所述终端的决策动作和所述网络设备的决策动作。在重新生成的所述网络设备的决策动作有更新的情况下，所述终端向所述网络设备发送所述网络设备更新后的决策动作。

本申请实施例还提供了一种终端。参见图4，图4是本申请实施例提供的终端400的结构图。由于终端400解决问题的原理与本申请实施例中端边协作模型推理方法相似，因此该终端400的实施可以参见如图1所示方法的实施，重复之处不再赘述。

如图4所示，终端400包括：

第一发送模块401，用于向网络设备发送携带模型信息的推理请求消息；

第一接收模块402，用于接收所述网络设备发送的推理回复消息，其中，所述推理回复消息中指示所述网络设备是否同意协作推理，在所述推理回复消息指示所述网络设备同意协作推理的情况下，所述推理回复消息中还携带有所述网络设备的状态信息；

第一生成模块403，用于在所述推理回复消息指示所述网络设备同意协作推理的情况下，根据所述网络设备的状态信息和所述终端的状态信息，生成所述终端的第一决策动作和所述网络设备的第二决策动作，所述决策动作包括负责计算的模型部分和对应的计算资源分配信息，所述状态信息至少包括计算资源状态信息；

第一处理模块404，用于对所述第一决策动作中指示的所述终端负责计算的第一模型部分分配计算资源，进行所述第一模型部分的模型推理计算；

第二发送模块405，用于向所述网络设备发送所述第二决策动作，以使所述网络设备对所述第二决策动作中指示的所述网络负责计算的第二模型部分分配计算资源，进行所述第二模型部分的模型推理计算。

可选地，所述终端400还包括：

第四接收模块，用于接收所述网络设备在更改所述第二决策动作的情况下，发送的计算资源分配更新消息，其中，所述计算资源分配更新消息中携带有所述网络设备更新的第三决策动作；

调整模块，用于根据所述第三决策动作，调整所述第一决策动作，得到第四决策动作；

第三处理模块，用于根据所述第四决策动作，重新确定所述终端负责计算的第三模型部分，并对所述第三模型部分分配计算资源，进行所述第三模型部分的模型推理计算。

可选地，所述第一处理模块404包括：

第一发送单元，用于向所述终端的计算资源管理模块发送第一计算资源分配建议消息，其中，所述第一计算资源分配建议消息中携带有所述第一模型部分的参数、所述第一模型部分中每层的计算资源类型和计算资源数量、层间计算的时序和数据传输关系；

第一处理单元，用于通过所述计算资源管理模块根据所述第一计算资源分配建议消息，将所述第一模型部分中不同层的计算任务分配至所述终端的不同类型的计算资源，并配置各类计算资源之间的数据传输关系。

可选地，所述终端400还包括：

第四发送模块，用于向所述网络设备发送所述第一模型部分的模型推理中间结果，以使所述网络设备整合所述第一模型部分的模型推理中间结果和所述第二模型部分的模型推理中间结果，得到模型协作推理结果；

第五接收模块，用于接收所述网络设备发送的所述模型协作推理结果。

可选地，所述终端400还包括：

第二获取模块，用于获取模型推理性能参数，所述模型推理性能参数包括推理准确度、平均推理时延和平均单次推理能耗中的至少一项；

计算模块，用于基于所述模型推理性能参数，计算奖励信息；

训练优化模块，用于收集每次协作推理中的状态信息、决策动作和奖励信息，作为所述终端与所述网络设备进行模型协作推理所采用的强化学习模型的训练样本，训练优化所述强化学习模型。

可选地，所述第二获取模块包括：

统计单元，用于统计所述终端在预设时长内的推理准确度、平均推理时延和平均单次推理能耗；

第一接收单元，用于接收所述网络设备发送的推理能耗信息，其中，所述推理能耗信息包括所述网络设备在所述预设时长内的平均单次推理能耗值或者所述网络设备平均单次推理消耗的算力值。

可选地，所述终端400还包括：

第六接收模块，用于接收所述网络设备发送的状态更新消息，其中，所述状态更新消息包括所述网络设备更新的状态信息；

和/或，第五发送模块，用于在监测到所述终端的状态信息发生变化的情况下，向所述网络设备发送状态更新请求消息；接收所述网络设备发送的最新状态信息；

第三生成模块，用于根据所述终端和/或所述网络设备更新后的状态信息，重新生成所述终端的决策动作和所述网络设备的决策动作；

第六发送模块，用于在重新生成的所述网络设备的决策动作有更新的情况下，向所述网络设备发送所述网络设备更新后的决策动作。

本申请实施例提供的终端400，可以执行上述如图1所示的方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

本申请实施例的终端400可以用于向网络设备发送携带模型信息的推理请求消息；接收网络设备发送的推理回复消息，其中，推理回复消息中还携带有网络设备的状态信息。根据网络设备的状态信息和终端的状态信息，生成终端的第一决策动作和网络设备的第二决策动作。在本实施例中，第一决策动作和第二决策动作是基于网络设备的状态信息和终端的状态信息生成的，因此在对推理模型进行切分时，考虑到了网络设备和终端的计算资源的区别，使得推理模型的切分更加合理，进而提高了模型推理性能。

本申请实施例还提供了一种网络设备。参见图5，图5是本申请实施例提供的网络设备500的结构图。由于网络设备500解决问题的原理与本申请实施例中端边协作模型推理方法相似，因此该网络设备500的实施可以参见如图2 所示方法的实施，重复之处不再赘述。

如图5所示，所述网络设备500包括：

第二接收模块501，用于接收终端发送的携带模型信息的推理请求消息；

第一获取模块502，用于获取所述网络设备的状态信息，其中，所述状态信息至少包括计算资源状态信息；

第二生成模块503，用于根据所述网络设备的状态信息，生成推理回复消息，所述推理回复消息中指示所述网络设备是否同意协作推理；

第三发送模块504，用于向所述终端发送所述推理回复消息，其中，在所述网络设备同意协作推理的情况下，所述推理回复消息中还携带有所述网络设备的状态信息；

第三接收模块505，用于在所述网络设备同意协作推理的情况下，接收所述终端发送的第二决策动作，其中，所述第二决策动作是所述终端根据所述网络设备的状态信息和所述终端的状态信息生成的所述网络设备的决策动作，所述决策动作包括负责计算的模型部分和对应的计算资源分配信息；

第二处理模块506，用于对所述第二决策动作中指示的所述网络设备负责计算的第二模型部分分配计算资源，进行所述第二模型部分的模型推理计算。

可选地，所述第一获取模块502包括：

第一收发单元，用于向所述网络设备的无线资源管理RRM模块发送无线信道质量信息请求消息；接收所述RRM模块返回的携带所述终端的上下行无线信道质量信息的无线信道质量信息回复消息；

第二收发单元，用于向所述网络设备的计算资源管理CRM模块发送携带计算任务信息的计算资源信息请求消息；接收所述CRM模块返回的携带所述网络设备的计算资源状态信息的计算资源信息回复消息；

第三收发单元，用于向所述网络设备的计算性能模型管理CPMM模块发送计算性能模型请求消息，其中，所述计算性能模型请求消息中携带有所述网络设备的剩余计算资源类型信息和模型层类型信息；接收所述CPMM模块返回的携带计算性能模型信息的计算性能模型回复消息。

可选地，所述第二处理模块506包括：

确定单元，用于根据所述网络设备的资源状态信息、用户优先级和业务优先级中的至少一项，确定是否执行所述第二决策动作；

第二处理单元，用于在确定执行所述第二决策动作的情况下，对所述第二决策动作中指示的所述网络设备负责计算的第二模型部分分配计算资源，进行所述第二模型部分的模型推理计算；

第三处理单元，用于在确定不执行所述第二决策动作的情况下，更改所述第二决策动作，并向所述终端发送计算资源分配更新消息，其中，所述计算资源分配更新消息中携带有所述网络设备更新的第三决策动作；

第四处理单元，用于对所述第三决策动作中指示的所述网络设备负责计算的第四模型部分分配计算资源，进行所述第四模型部分的模型推理计算。

可选地，所述第二处理模块506包括：

第二发送单元，用于向所述网络设备的RRM模块发送无线资源分配建议消息，其中，所述无线资源分配建议消息中携带有为模型推理计算任务分配的上下行信道带宽；

第三发送单元，用于向所述网络设备的CRM模块发送第二计算资源分配建议消息，其中，所述第二计算资源分配建议消息包括所述第二模型部分的参数、所述第二模型部分中每层的计算资源类型和计算资源数量、层间计算的时序和数据传输关系；

第五处理单元，用于通过所述网络设备的CRM模块根据所述第二计算资源分配建议消息，将所述第二模型部分中不同层的计算任务分配至所述网络设备的不同类型的计算资源，并配置各类计算资源之间的数据传输关系。

可选地，所述网络设备500还包括：

第七接收模块，用于接收所述终端发送的第一模型部分的模型推理中间结果；

整合模块，用于整合所述第一模型部分的模型推理中间结果和所述第二模型部分的模型推理中间结果，得到模型协作推理结果；

第七发送模块，用于向所述终端发送所述模型协作推理结果。

可选地，所述网络设备500还包括：

统计模块，用于统计所述网络设备的推理能耗信息，其中，所述推理能耗信息包括所述网络设备在预设时长内的平均单次推理能耗值或者所述网络设备平均单次推理消耗的算力值；

第八发送模块，用于向所述终端发送所述推理能耗信息。

可选地，所述网络设备500还包括：

第九发送模块，用于在监测到所述网络设备的状态信息发生变化的情况下，向所述终端发送状态更新消息，其中，所述状态更新消息包括所述网络设备更新的状态信息；

和/或，第八接收模块，用于接收所述终端发送的状态更新请求消息；向所述终端发送所述网络设备的最新状态信息。

本申请实施例提供的网络设备，可以执行上述如图2所述方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

本申请实施例还提供了一种终端。由于终端解决问题的原理与本申请实施例中端边协作模型推理方法相似，因此该终端的实施可以参见方法的实施，重复之处不再赘述。如图6所示，本申请实施例的终端，包括：处理器600，用于读取存储器620中的程序，执行下列过程：

处理器600，用于读取存储器620中的程序，执行下列过程：

通过收发机610向网络设备发送携带模型信息的推理请求消息；

通过收发机610接收所述网络设备发送的推理回复消息，其中，所述推理回复消息中指示所述网络设备是否同意协作推理，在所述推理回复消息指示所述网络设备同意协作推理的情况下，所述推理回复消息中还携带有所述网络设备的状态信息；

通过收发机610向所述网络设备发送所述第二决策动作，以使所述网络设备对所述第二决策动作中指示的所述网络负责计算的第二模型部分分配计算资源，进行所述第二模型部分的模型推理计算。

收发机610，用于在处理器600的控制下接收和发送数据。

其中，在图6中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器600代表的一个或多个处理器和存储器620代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。收发机610可以是多个元件，即包括发送机和接收机，提供用于在传输介质上与各种其他装置通信的单元。针对不同的用户设备，用户接口630还可以是能够外接内接需要设备的接口，连接的设备包括但不限于小键盘、显示器、扬声器、麦克风、操纵杆等。

处理器600负责管理总线架构和通常的处理，存储器620可以存储处理器 600在执行操作时所使用的数据。

可选地，处理器600还用于读取存储器620中的程序，执行如下步骤：

通过收发机610接收所述网络设备在更改所述第二决策动作的情况下，发送的计算资源分配更新消息，其中，所述计算资源分配更新消息中携带有所述网络设备更新的第三决策动作；

通过收发机610向所述终端的计算资源管理模块发送第一计算资源分配建议消息，其中，所述第一计算资源分配建议消息中携带有所述第一模型部分的参数、所述第一模型部分中每层的计算资源类型和计算资源数量、层间计算的时序和数据传输关系；

通过收发机610向所述网络设备发送所述第一模型部分的模型推理中间结果，以使所述网络设备整合所述第一模型部分的模型推理中间结果和所述第二模型部分的模型推理中间结果，得到模型协作推理结果；

通过收发机610接收所述网络设备发送的所述模型协作推理结果。

基于所述模型推理性能参数，计算奖励信息；

通过收发机610接收所述网络设备发送的推理能耗信息，其中，所述推理能耗信息包括所述网络设备在所述预设时长内的平均单次推理能耗值或者所述网络设备平均单次推理消耗的算力值。

通过收发机610接收所述网络设备发送的状态更新消息，其中，所述状态更新消息包括所述网络设备更新的状态信息；

和/或，在监测到所述终端的状态信息发生变化的情况下，通过收发机610 向所述网络设备发送状态更新请求消息；接收所述网络设备发送的最新状态信息；

在重新生成的所述网络设备的决策动作有更新的情况下，通过收发机610 向所述网络设备发送所述网络设备更新后的决策动作。

本申请实施例提供的终端，可以执行上述方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

本申请实施例还提供了一种网络设备。由于网络设备解决问题的原理与本申请实施例中端边协作模型推理方法相似，因此该网络设备的实施可以参见方法的实施，重复之处不再赘述。如图7所示，本申请实施例的网络设备，包括：处理器700，用于读取存储器720中的程序，执行下列过程：

处理器700，用于读取存储器720中的程序，执行下列过程：

通过收发机710接收终端发送的携带模型信息的推理请求消息；

通过收发机710向所述终端发送所述推理回复消息，其中，在所述网络设备同意协作推理的情况下，所述推理回复消息中还携带有所述网络设备的状态信息；

在所述网络设备同意协作推理的情况下，通过收发机710接收所述终端发送的第二决策动作，其中，所述第二决策动作是所述终端根据所述网络设备的状态信息和所述终端的状态信息生成的所述网络设备的决策动作，所述决策动作包括负责计算的模型部分和对应的计算资源分配信息；

收发机710，用于在处理器700的控制下接收和发送数据。

其中，在图7中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器700代表的一个或多个处理器和存储器720代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。收发机710可以是多个元件，即包括发送机和收发机，提供用于在传输介质上与各种其他装置通信的单元。处理器700 负责管理总线架构和通常的处理，存储器720可以存储处理器700在执行操作时所使用的数据。

可选地，处理器700还用于读取存储器720中的程序，执行如下步骤：

通过收发机710向所述网络设备的无线资源管理RRM模块发送无线信道质量信息请求消息；通过收发机710接收所述RRM模块返回的携带所述终端的上下行无线信道质量信息的无线信道质量信息回复消息；

通过收发机710向所述网络设备的计算资源管理CRM模块发送携带计算任务信息的计算资源信息请求消息；通过收发机710接收所述CRM模块返回的携带所述网络设备的计算资源状态信息的计算资源信息回复消息；

通过收发机710向所述网络设备的计算性能模型管理CPMM模块发送计算性能模型请求消息，其中，所述计算性能模型请求消息中携带有所述网络设备的剩余计算资源类型信息和模型层类型信息；通过收发机710接收所述 CPMM模块返回的携带计算性能模型信息的计算性能模型回复消息。

在确定不执行所述第二决策动作的情况下，更改所述第二决策动作，并通过收发机710向所述终端发送计算资源分配更新消息，其中，所述计算资源分配更新消息中携带有所述网络设备更新的第三决策动作；

通过收发机710向所述网络设备的RRM模块发送无线资源分配建议消息，其中，所述无线资源分配建议消息中携带有为模型推理计算任务分配的上下行信道带宽；

通过收发机710向所述网络设备的CRM模块发送第二计算资源分配建议消息，其中，所述第二计算资源分配建议消息包括所述第二模型部分的参数、所述第二模型部分中每层的计算资源类型和计算资源数量、层间计算的时序和数据传输关系；

通过收发机710接收所述终端发送的第一模型部分的模型推理中间结果；

通过收发机710向所述终端发送所述模型协作推理结果。

通过收发机710向所述终端发送所述推理能耗信息。

在监测到所述网络设备的状态信息发生变化的情况下，通过收发机710 向所述终端发送状态更新消息，其中，所述状态更新消息包括所述网络设备更新的状态信息；

和/或，通过收发机710接收所述终端发送的状态更新请求消息；通过收发机710向所述终端发送所述网络设备的最新状态信息。

本申请实施例提供的网络设备，可以执行上述方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现如图1或图2所示方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理包括，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述收发方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种端边协作模型推理方法，其特征在于，由终端执行，所述方法包括：

向网络设备发送携带模型信息的推理请求消息；

2.根据权利要求1所述的方法，其特征在于，所述向所述网络设备发送所述第二决策动作之后，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述对所述第一决策动作中指示的所述终端负责计算的第一模型部分分配计算资源，进行所述第一模型部分的模型推理计算，包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

接收所述网络设备发送的所述模型协作推理结果。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

基于所述模型推理性能参数，计算奖励信息；

6.根据权利要求5所述的方法，其特征在于，所述获取模型推理性能参数，包括：

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

8.一种端边协作模型推理方法，其特征在于，由网络设备执行，所述方法包括：

接收终端发送的携带模型信息的推理请求消息；

9.根据权利要求8所述的方法，其特征在于，所述获取所述网络设备的状态信息，包括：

10.根据权利要求8所述的方法，其特征在于，所述对所述第二决策动作中指示的所述网络设备负责计算的第二模型部分分配计算资源，进行所述第二模型部分的模型推理计算，包括：

11.根据权利要求8所述的方法，其特征在于，所述对所述第二决策动作中指示的所述网络设备负责计算的第二模型部分分配计算资源，进行所述第二模型部分的模型推理计算，包括：

12.根据权利要求8所述的方法，其特征在于，所述方法还包括：

接收所述终端发送的第一模型部分的模型推理中间结果；

向所述终端发送所述模型协作推理结果。

13.根据权利要求8所述的方法，其特征在于，所述方法还包括：

向所述终端发送所述推理能耗信息。

14.根据权利要求8所述的方法，其特征在于，所述方法还包括：

15.一种终端，其特征在于，包括：

16.一种网络设备，其特征在于，包括：

17.一种终端，包括：收发机、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序；其特征在于，

所述处理器，用于读取存储器中的程序实现如权利要求1至7中任一项所述的方法中的步骤。

18.一种网络设备，包括：收发机、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序；其特征在于，

所述处理器，用于读取存储器中的程序实现如权利要求8至14中任一项所述的方法中的步骤。

19.一种计算机可读存储介质，用于存储计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法中的步骤；或者实现如权利要求8至14中任一项所述的方法中的步骤。