CN116938925A - 推理任务的处理方法、装置、终端、基站及存储介质 - Google Patents

推理任务的处理方法、装置、终端、基站及存储介质 Download PDF

Info

Publication number
CN116938925A
CN116938925A CN202210369195.1A CN202210369195A CN116938925A CN 116938925 A CN116938925 A CN 116938925A CN 202210369195 A CN202210369195 A CN 202210369195A CN 116938925 A CN116938925 A CN 116938925A
Authority
CN
China
Prior art keywords
model
base station
terminal
request
message
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210369195.1A
Other languages
English (en)
Inventor
邓娟
刘光毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Communications Ltd Research Institute
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Communications Ltd Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Communications Ltd Research Institute filed Critical China Mobile Communications Group Co Ltd
Priority to CN202210369195.1A priority Critical patent/CN116938925A/zh
Publication of CN116938925A publication Critical patent/CN116938925A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本申请公开了一种推理任务的处理方法、装置、终端、基站及存储介质,其中,方法包括:第一终端向第一基站发送第一请求;所述第一请求用于请求所述第一基站协助第一模型的推理;所述第一请求的消息内容至少包括所述第一模型每一层的层类型及每一层的计算量参数的变量值;接收所述第一基站返回的关于所述第一请求的第一响应;所述第一响应表征所述第一基站是否同意协助所述第一模型的推理。

Description

推理任务的处理方法、装置、终端、基站及存储介质
技术领域
本申请涉及无线技术领域,尤其涉及一种推理任务的处理方法、装置、终端、基站及存储介质。
背景技术
当终端需完成一项计算模型的推理任务,而自身算力又不够时,可通过基于计算模型分割的端边协作推理获得网络侧算力资源的协助,将计算模型分割为由终端进行推理的部分和由基站进行推理的部分,由终端和基站共同完成推理任务。相关技术中,端边协作的推理任务可能导致终端的能耗过大。
发明内容
为解决相关技术问题,本申请实施例提供一种推理任务的处理方法、装置、终端、基站及存储介质。
本申请实施例的技术方案是这样实现的:
本申请实施例提供了一种推理任务的处理方法,应用于第一终端,包括:
向第一基站发送第一请求;所述第一请求用于请求所述第一基站协助第一模型的推理;所述第一请求的消息内容至少包括所述第一模型每一层的层类型及每一层的计算量参数的变量值;
接收所述第一基站返回的关于所述第一请求的第一响应;所述第一响应表征所述第一基站是否同意协助所述第一模型的推理。
其中,上述方案中,所述第一请求的消息内容还包括以下信息的至少之一:
所述第一模型的层数;
所述第一模型的性能要求;所述性能要求包括推理时延要求、推理准确度要求和/或终端单次推理的能耗要求;
所述第一终端的状态信息;
所述第一终端各类计算资源的计算性能模型。
上述方案中,所述第一请求的消息内容还包括所述第一终端各类计算资源对应的计算性能模型,在所述向第一基站发送第一请求之前,所述方法还包括:
向所述第一终端的第一CPMM模块发出第二请求;所述第二请求用于向所述第一CPMM模块获取计算性能模型;所述第二请求的消息内容包括所述第一终端剩余可分配的计算资源的类型以及所述第一模型每一层的层类型;
获取所述第一CPMM模块返回的关于所述第二请求的第二响应;所述第二响应的消息内容包括至少一个计算性能模型;所述至少一个计算性能模型表征对应于所述第一模型每种层类型,所述第一终端剩余可分配的每类计算资源对的计算性能模型。
上述方案中,在所述第一响应表征所述第一基站同意协助所述第一模型的推理的情况下,所述第一响应的消息内容包括以下信息的至少之一:
所述第一模型的分割点;所述分割点用于将所述第一模型划分为由所述第一终端进行推理的第一部分模型和由所述第一基站进行推理的第二部分模型;
所述第一基站建议的所述第一部分模型中每一层的计算资源类型和/或计算资源数量。
上述方案中,在所述第一响应表征所述第一基站同意协助所述第一模型的推理的情况下,所述方法还包括:
向所述第一终端的第一CRM模块发出第一消息;以及,
向所述第一基站发送第二消息;其中,
所述第一消息的消息内容包括由所述第一终端进行推理的第一部分模型的模型参数、所述第一部分模型每一层的计算资源类型和计算资源数量、以及所述第一部分模型的层间计算时序和数据传输关系;所述第二消息的消息内容包括由所述第一基站进行推理的第二部分模型的模型参数。
上述方案中,在所述向所述第一基站发送第二消息之后,所述方法还包括:
在确认所述第一基站对所述第二部分模型配置完成后,向所述第一CRM模块发送第三消息;其中,
所述第三消息用于指示对所述第一部分模型进行推理。
上述方案中,所述方法还包括:
向所述第一基站发送第四消息;其中,
所述第四消息的消息内容包括所述第一终端更新的状态变量。
上述方案中,所述向所述第一基站发送第四消息,包括:
当所述第一终端的任一状态变量的变化值超过对应阈值时,向所述第一基站发送第四消息;和/或,
在接收到所述第一基站发送的第五消息的情况下,向所述第一基站发送第四消息;其中,
所述第五消息用于请求获取所述第一终端的状态变量的最新变量值。
上述方案中,所述方法还包括:
接收所述第一基站发送的第六消息;其中,
所述这第六消息的消息内容包括所述第一基站更新的以下信息的至少之一:
所述第一模型的分割点;
所述第一基站建议的所述第一部分模型中每一层的计算资源类型和/或计算资源数量。
本申请实施例还提供了一种推理任务的处理方法,应用于第一基站,包括:
接收第一终端发送的第一请求;所述第一请求用于请求所述第一基站协助第一模型的推理;所述第一请求的消息内容包括所述第一模型每一层的层类型及每一层的计算量参数变量值;
向所述第一终端返回关于所述第一请求的第一响应;所述第一响应表征所述第一基站是否同意协助所述第一模型的推理。
其中,上述方案中,在所述接收第一终端发送的第一请求之后,所述向所述第一终端返回关于所述第一请求的第一响应之前,所述方法还包括:
向RRM模块发送第三请求;以及,
接收RRM模块返回的关于所述第三请求的第三响应;其中,
所述第三请求用于请求获取所述第一终端的上下行无线信道质量信息;所述第三响应的消息内容包括所述第一终端的上下行无线信道质量信息和/或为所述第一终端分配的上下行无线信道带宽信息。
上述方案中,在所述接收第一终端发送的第一请求之后,所述向所述第一终端返回关于所述第一请求的第一响应之前,所述方法还包括:
向所述第一基站的第二CRM模块发出第四请求;以及,
接收所述第二CRM模块返回的关于所述第四请求的第四响应;其中,
所述第四请求用于请求获取所述第一终端剩余可分配的计算资源的相关信息;所述第四请求的消息内容包括用于描述以下信息的至少一项:关于所述第一模型的任务类型;所述第一模型的层类型和/或每种层类型对应的计算量;所述第一模型的运算操作类型和/或运算操作类型对应的计算量;所述第四响应的消息内容包括所述第一终端剩余可分配的计算资源类型和/或计算资源数量。
上述方案中,在所述接收第一终端发送的第一请求之后,所述向所述第一终端返回关于所述第一请求的第一响应之前,所述方法还包括:
向所述第一基站的第二CPMM模块发送第五请求;以及,
接收所述第二CPMM模块返回的关于所述第五请求的第五响应;其中,
所述第五请求用于请求获取计算性能模型;所述第五请求的消息内容包括所述第一终端剩余可分配的计算资源的类型以及所述第一模型的层类型;所述第五响应的消息内容包括至少一个计算性能模型;所述至少一个计算性能模型表征应于所述第一模型每种层类型,所述第一终端剩余可分配的每类计算资源对的计算性能模型。
上述方案中,在所述第一基站同意协助所述第一模型的推理的情况下,所述方法还包括:
接收所述第一终端发送的第二消息;其中,
所述第二消息的消息内容包括由所述第一基站进行推理的第二部分模型的模型参数。
上述方案中,在接收所述第一终端发送的第二消息之后,所述方法还包括:
接收所述第一终端发送的第四消息;所述第四消息的消息内容包括所述第一终端更新的状态变量;
基于所述第四消息,向所述第一终端发送第六消息;所述这第六消息的消息内容包括所述第一基站更新的以下信息的至少之一:
所述第一模型的分割点;所述分割点用于将所述第一模型划分为由所述第一终端进行推理的第一部分模型和由所述第一基站进行推理的第二部分模型;
所述第一基站建议的所述第一部分模型中每一层的计算资源类型和/或计算资源数量。
本申请实施例还提供了一种推理任务的处理装置,包括:
第一发送单元,用于向第一基站发送第一请求;所述第一请求用于请求所述第一基站协助第一模型的推理;所述第一请求的消息内容至少包括所述第一模型每一层的层类型及每一层的计算量参数的变量值;
第一接收单元,用于接收所述第一基站返回的关于所述第一请求的第一响应;所述第一响应表征所述第一基站是否同意协助所述第一模型的推理。
本申请实施例还提供了一种推理任务的处理装置,包括:
第二接收单元,用于接收第一终端发送的第一请求;所述第一请求用于请求所述第一基站协助第一模型的推理;所述第一请求的消息内容包括所述第一模型每一层的层类型及每一层的计算量参数变量值;
第二发送单元,用于向所述第一终端返回关于所述第一请求的第一响应;所述第一响应表征所述第一基站是否同意协助所述第一模型的推理。
本申请实施例还提供了一种第一终端,包括:第一处理器及第一通信接口;其中,
所述第一通信接口,用于向第一基站发送第一请求,以及接收所述第一基站返回的关于所述第一请求的第一响应;其中,
所述第一请求用于请求所述第一基站协助第一模型的推理;所述第一请求的消息内容至少包括所述第一模型每一层的层类型及每一层的计算量参数的变量值;所述第一响应表征所述第一基站是否同意协助所述第一模型的推理。
本申请实施例还提供了一种第一基站,包括:第二处理器及第二通信接口;其中,
所述第二通信接口,用于接收第一终端发送的第一请求,以及向所述第一终端返回关于所述第一请求的第一响应;其中,
所述第一请求用于请求所述第一基站协助第一模型的推理;所述第一请求的消息内容包括所述第一模型每一层的层类型及每一层的计算量参数变量值;所述第一响应表征所述第一基站是否同意协助所述第一模型的推理。
本申请实施例还提供了一种第一终端,包括:第一处理器和用于存储能够在处理器上运行的计算机程序的第一存储器,
其中,所述第一处理器用于运行所述计算机程序时,执行上述第一终端侧任一方法的步骤。
本申请实施例还提供了一种第一基站,包括:第二处理器和用于存储能够在处理器上运行的计算机程序的第一存储器,
其中,所述第二处理器用于运行所述计算机程序时,执行上述第一基站侧任一方法的步骤。
本申请实施例还提供了一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述第一终端侧任一方法的步骤,或者实现上述第一基站侧任一方法的步骤。
本申请实施例提供的推理任务的处理方法、装置、终端、基站及存储介质中,第一终端向第一基站发送第一请求;所述第一请求用于请求所述第一基站协助第一模型的推理;所述第一请求的消息内容至少包括所述第一模型每一层的层类型及每一层的计算量参数的变量值;第一基站向第一终端返回关于所述第一请求的第一响应;所述第一响应表征所述第一基站是否同意协助所述第一模型的推理。上述方案基于终端与基站之间的空口消息交互,由基站基于模型涉及的层类型及计算量参数的变量值,进行模型推理任务的相关决策,在满足了推理时延、精度等要求的前提下,一定程度降低了终端能耗。
附图说明
图1为本申请实施例有向无环的深度神经网络的端边协作推理示意图;
图2为本申请实施例终端侧存储的计算性能模型示例图;
图3为本申请实施例一种推理任务的处理方法流程示意图;
图4为本申请实施全终端侧的计算量参数的变量值示例图;
图5为本申请实施例另一种推理任务的处理方法流程示意图;
图6为本申请实施例终端与基站的交互流程示意图;
图7为本申请应用实施例终端侧计算资源的硬件信息示例图;
图8是本申请应用实施例MobileNet v1神经网络模型的结构信息和每层的计算量参数示例图;
图9为本申请实施例一种推理任务的处理装置结构示意图;
图10为本申请实施例另一种推理任务的处理装置结构示意图;
图11为本申请实施例第一终端结构示意图;
图12为本申请实施例第一基站结构示意图。
具体实施方式
基于智能模型分割的端边协作推理是一种无线网络中的分布式协作推理框架。当终端需完成一项智能模型推理任务,而自身算力又不够时,可通过基于智能模型分割的端边协作推理获得网络侧算力资源的协助,共同完成推理任务,满足推理的性能需求。目前主要存在两种端边协作方式:一种是终端将智能模型全部传给网络侧,由网络侧完成推理计算后,将结果返回给终端;一种是将智能模型进行切分,终端和网络侧各完成一部分计算,网络侧将自身处理得到的推理结果返回给终端。其中,第二种端边协作方式可以充分利用终端的算力,且不会暴露完整的智能模型,安全性较好。在第二种端边协作方式的实现过程中,需要决策出如何切分智能模型,即,对于有向无环的深度神经网络,需要决定在哪两层之间进行切分,实际应用时,在切分完成后,如图1示出的,智能模型的左半部分由终端侧负责计算,右半部分由网络侧负责计算。
对于切分点的决策,相关技术主要包括以下三种方案:
1、分别统计终端侧和网络侧的计算模型每一层所需的计算时延和能耗,针对每一种层类型(如卷积层,全连接层,池化层等),建立该层的参数值与计算时延、能耗的映射关系模型,以推理计算时延和能耗综合最小为优化目标,来决定切分点。
上述切分点决策方式1考虑了终端侧和网络侧分别拥有多个移动的计算单元的可能性。比如终端的片上系统(SoC,System on Chip)可能存在中央处理器(CPU,CentralProcessing Unit)、图形处理器(GPU,Graphics Processing Unit)、数字信号处理(DSP,Digital Signal Process)和嵌入式神经网络处理器(NPU,Neural-network ProcessingUnit)等不同架构的计算单元,网络侧可能存在服务器(server)级不同架构的计算单元,如CPU、GPU和张量处理器(TPU,tensor processing unit)等。对于同一类型的神经网络层,不同计算单元的性能表现并不相同,而切分点决策方式1无法决定神经网络在哪一计算单元上计算;另外,切分点决策方式1未考虑无线信道的动态变化对空口时延带来的影响,并未对空口时延进行量化预测,导致从整体推理计算时延时存在不可控的风险。
2、通过强化学习,以计算时延、能耗及准确性为奖励,以神经网络的层类型和层数量、各种处理器的利用率以及无线信道强度为状态,决定将推理任务放在终端侧或网络侧的哪一个处理器上来计算。
上述切分点决策方式2并未考虑对推理模型进行切分,而是将整个模型放在终端侧或网络侧的某一个处理器上进行计算。
3、通过试错法(trial and error),设置一批前导输入值(假输入),尝试多种切分点,统计计算时延、能耗和准确度等性能情况,在此基础上决定切分点。
上述切分点决策方式3需要较长时间的尝试才能确定切分点,在尝试过程中会消耗计算和通信资源,且由于无线信道的动态变化,在尝试过程中决定的切分点不一定适用于后续正常推理时段,因此,从资源成本、时间成本以及性能上都不是较好的选择。
基于此,本申请的各实施例中,第一终端向第一基站发送第一请求;所述第一请求用于请求所述第一基站协助第一模型的推理;所述第一请求的消息内容至少包括所述第一模型每一层的层类型及每一层的计算量参数的变量值;第一基站向第一终端返回关于所述第一请求的第一响应;所述第一响应表征所述第一基站是否同意协助所述第一模型的推理。上述方案基于终端与基站之间的空口消息交互,由基站基于模型涉及的层类型及计算量参数的变量值,进行模型推理任务的相关决策,在满足了推理时延、精度等要求的前提下,一定程度降低了终端能耗。
接下来,对本申请实施例涉及的术语进行定义:
1、状态变量(State):包括网络侧状态的部分和终端侧状态的部分。
其中,网络侧状态包括但不限于:
基站内各类型计算资源的剩余可分配算力、基站内各类型计算资源之间的传输带宽、基站对应小区剩余可分配的上下行空口信道传输资源及一个或多个终端的上下行信道质量。
终端侧状态包括但不限于:
终端内各类型计算资源的剩余可分配算力、终端内各类型计算资源之间的传输带宽及终端下行信道质量。当同时存在多个终端的推理任务时,终端侧状态为多个终端的上述状态向量的连接向量。
这里,算力的描述方式可以是各量化等级的每秒浮点运算次数(FLOPS,Floating-point Operations Per Second),可以是基本计算单元的个数,如介质访问控制层(MAC,Media Access Control)运算单元、计算核,也可以是利用率等。并且,可以从物理计算资源上或虚拟计算资源上对算力进行描述。基站内各类型计算资源之间的传输带宽,传输带宽的单位包括Mbps或Gbps。基站侧对应小区剩余可分配的上下行空口信道传输资源,例如可以为资源块(RB,Resource block)数量。终端的上下行信道质量包括信道质量指示(CQI,Channel Quality Indicator)和/或接收信号强度指示(RSSI,Received Signal StrengthIndication)。
2、动作变量(Action):包括网络侧动作、终端侧动作和模型分割点。
其中,网络侧动作包括但不限于:
用于本次推理任务的上行和/或下行带宽分配建议,以及基站用于模型计算的计算资源分配。当同时存在多个终端的推理任务时,网络侧动作为多个推理任务决策的上述动作向量的连接向量。
终端侧动作包括但不限于:
终端侧用于模型计算的计算资源分配。当同时存在多个终端的推理任务时,终端侧动作为多个终端决策的上述动作向量的连接向量。
这里,用于本次推理任务的上行和/或下行带宽分配建议可以包括上行和/或下行的RB数量、上行或下行的保障数据速率)。网络侧或终端侧用于模型计算的计算资源分配包括:分配给网络侧或终端侧的模型部分中,每一层放在哪一类计算资源计算,以及为每一层分配的计算资源数量,例如FLOPS、计算单元个数和/或利用率。
模型分割点动作包括但不限于:
从模型的哪两层之间进行分割。当同时存在多个终端的推理任务时,模型分割点为多个终端决策的模型分割点的连接向量。
3、奖励变量(Reward):包括推理时延、推理准确度和终端能耗相关指标。
其中,推理时延相关奖励r_t:假设终端对推理时延的要求是T,终端计算的从向基站侧提供模型输入到收到基站侧反馈的推理结果所耗的时间delta_t,那么推理时延相关的奖励可以计算为:如果delta_t>T,那么r_t=T-delta_t;如果delta_t<T或delta_t=T,那么r_t=0。
推理准确度相关奖励r_a:终端设置准确度要求为A,终端计算推理结果的准确度,当计算出的准确度小于A时,计算相关惩罚。
终端能耗相关奖励r_p:终端统计单次推理的能耗值,计算相关奖励或惩罚。
综合奖励为考虑上述三种奖励计算出的最终奖励值:r=f(r_t,r_a,r_p),算法可以有多种。当同时存在多个终端的推理任务时,网络侧综合所有终端的奖励信息,按照一定的算法计算全局奖励值。
为给出初始动作决策,网络侧和终端侧可能存储有各类型计算资源的计算性能模型,计算性能模型的输入可以为计算资源类型,比如CPU、GPU、NPU和/或DSP等,又比如按照逻辑区分方式划分的类型物理计算资源和/或虚拟计算资源等。计算性能模型的输入还可以为为对应的计算资源类型分配的算力,比如分配的利用率、FLOPS和/或计算单元数量。计算性能模型的输入还可以为某种神经网络层类型的计算量参数变量。计算性能模型的输出为对应的计算资源类型完成该神经网络层计算所需的时延和能耗。图2示出了终端侧存储的计算性能模型示例。
下面结合附图及实施例对本申请再作进一步详细的描述。
本申请实施例提供了一种推理任务的处理方法,应用于第一终端,如图3所示,该方法包括:
步骤301:向第一基站发送第一请求。
其中,所述第一请求用于请求所述第一基站协助第一模型的推理;所述第一请求的消息内容至少包括所述第一模型每一层的层类型及每一层的计算量参数的变量值。
实际应用时,所述第一请求可以通过接口请求(inference request)消息发送,用于请求第一基站协助完成第一模型的推理,这里,第一模型可以理解为智能模型,例如图1示出的有向无环的深度神经网络。第一请求的消息内容至少需要包括第一模型每一层的层类型及每一层的计算量参数的变量值,以辅助第一基站做出合理的协助推理相关的决策。其中,层类型包括但不限于卷积层、激活层、池化层、全连接层、丢弃(dropout)层、本地响应正则化层和/或其他神经网络的层类型;计算量参数的变量值包括但不限于图4所示出的部分。此外,可以理解,第一请求的消息内容中还携带有终端标识,包括第一终端的临时标识、第一终端已有RRC连接的标识等,用于指示第一请求是由第一终端发出。
此外,在一实施例中,所述第一请求的消息内容还包括以下信息的至少之一:
所述第一模型的层数;
所述第一模型的性能要求;所述性能要求包括推理时延要求、推理准确度要求和/或终端单次推理的能耗要求;
所述第一终端的状态信息;
所述第一终端各类计算资源的计算性能模型。
其中,上述各项性能要求通过对应的量化阈值进行要求。
在一实施例中,在所述第一请求的消息内容还包括所述第一终端各类计算资源对应的计算性能模型的情况下,在所述向第一基站发送第一请求之前,所述方法还包括:
向所述第一终端的第一CPMM模块发出第二请求;所述第二请求用于向所述第一CPMM模块获取计算性能模型;所述第二请求的消息内容包括所述第一终端剩余可分配的计算资源的类型以及所述第一模型每一层的层类型;
获取所述第一CPMM模块返回的关于所述第二请求的第二响应;所述第二响应的消息内容包括至少一个计算性能模型;所述至少一个计算性能模型表征对应于所述第一模型每种层类型,所述第一终端剩余可分配的每类计算资源对的计算性能模型。
实际应用时,第一终端可以通过计算性能模型请求(compute performance modelrequest)消息向终端侧的第一CPMM模块获取计算性能模型,对应的消息内容中包括了第一终端剩余可分配的计算资源的类型,还包括了第一模型所包含的所有层类型。此后,第一CPMM模块通过计算性能模型响应(compute performance model response)消息,为第一终端剩余可分配的每种计算资源配置对应于第一模型的每种层类型的计算性能模型。例如,第一终端剩余可分配的计算资源有3类,第一模型共涉及种层类型,那么,第一CPMM模块通过计算性能模型响应消息,总共需要为第一终端配置9个计算性能模型。
步骤302:接收所述第一基站返回的关于所述第一请求的第一响应。
其中,所述第一响应表征所述第一基站是否同意协助所述第一模型的推理。
在一实施例中,在所述第一响应表征所述第一基站同意协助所述第一模型的推理的情况下,所述第一响应的消息内容包括以下信息的至少之一:
所述第一模型的分割点;所述分割点用于将所述第一模型划分为由所述第一终端进行推理的第一部分模型和由所述第一基站进行推理的第二部分模型;
所述第一基站建议的所述第一部分模型中每一层的计算资源类型和/或计算资源数量。
实际应用时,第一响应可以通过接口响应(inference response)消息发送,消息内容包括结果指示,用于表征第一基站同意协助第一模型的推理或不同意协助第一模型的推理。此外,若结果指示表征第一基站同意协助第一模型的推理,那么第一响应的消息内容还包括第一基站对第一模型的推理的相关初始决策,包括但不限于:模型分割点,以及基于模型分割点确定出的终端侧对应的部分模型中每一层涉及的计算资源类型和/或计算资源数量。
在一实施例中,在所述第一响应表征所述第一基站同意协助所述第一模型的推理的情况下,所述方法还包括:
向所述第一终端的第一CRM模块发出第一消息;以及,
向所述第一基站发送第二消息;其中,
所述第一消息的消息内容包括由所述第一终端进行推理的第一部分模型的模型参数、所述第一部分模型每一层的计算资源类型和计算资源数量、以及所述第一部分模型的层间计算时序和数据传输关系;所述第二消息的消息内容包括由所述第一基站进行推理的第二部分模型的模型参数。
如前文所述,若第一基站同意协助第一模型的推理,那么第一响应的消息内容中包括模型分割点。第一终端在收到第一响应后,判断消息内容中的模型分割点能够有效地切分第一模型,例如,从中间或模型入口处切分第一模型,则第一终端按照模型分割点对第一模型进行切分,得到由第一终端负责的第一部分模型和由第一基站负责的第二部分模型。此后,第一终端将第一消息发送给终端侧的第一CRM模块。实际应用时,第一消息可以为计算资源配置建议(compute resource allocation suggestion)消息,且第一消息的消息内容包括第一部分模型的模型参数、所述第一部分模型每一层的计算资源类型和计算资源数量、以及所述第一部分模型的层间计算时序和数据传输关系,其中,计算资源数量可以表征为计算资源利用率、计算单元个数和/或每秒浮点运算次数(FLOPS,Floating-pointOperations Per Second),这样,第一CRM模块可以基于第一消息的消息内容,将第一部分模型各个层对应的计算任务分配到对应的计算资源上,并配置对应的计算资源之间的数据传输关系。与此同时,第一终端将第二消息发送给第一基站。实际应用时,第二消息可以为模型计算(model to compute)消息,且第二消息的消息内容包括由第二部分模型的模型参数。
在一实施例中,在所述向所述第一基站发送第二消息之后,所述方法还包括:
在确认所述第一基站对所述第二部分模型配置完成后,向所述第一CRM模块发送第三消息。
其中,所述第三消息用于指示对所述第一部分模型进行推理。
实际应用时,第一基站在完成对第二部分模型的配置后,可以向第一终端发送配置完成(configuration complete)消息,用于指示第一基站对第二部分模型配置完成。第一终端在基于配置完成消息确认第一基站对第二部分模型配置完成后,通过第三消息向第一CRM模块指示开始对第一部分模型进行推理。
在一实施例中,所述方法还包括:
向所述第一基站发送第四消息。
其中,所述第四消息的消息内容包括所述第一终端更新的状态变量。
这里,在第一模型的推理过程中,第一终端将更新的最新的状态变量发送给第一基站。实际应用时,第四消息可以为第一终端向第一基站发送的状态更新(state update)消息,状态更新消息的消息内容包括但不限于变量更新指示和更新后的状态变量的变量值。
具体地,在一实施例中,所述向所述第一基站发送第四消息,包括:
当所述第一终端的任一状态变量的变化值超过对应阈值时,向所述第一基站发送第四消息;和/或,
在接收到所述第一基站发送的第五消息的情况下,向所述第一基站发送第四消息;其中,
所述第五消息用于请求获取所述第一终端的状态变量的最新变量值。
也就是说,在前文提及的终端侧的状态变量中有任一状态变量的变化值超过对应阈值时,或者,当第一终端收到第一基站发送的第五消息时,第一终端向第一基站发送第四消息,以保证第一基站能够同步第一终端的状态变量。通常,在前文提及的网络侧的状态变量中有任一状态变量的变化值超过对应阈值时,第一基站将重组最新的状态变量,此时,第一基站可以通过状态更新请求(state update request)消息获取第一终端的状态变量的最新值。
在第一终端与第一基站对第一模型进行协作推理的过程中,第一基站基于强化学习,不断训练第一模型,并优化第一模型相关的决策。并且,当同时执行多个终端的协作推理任务时,第一基站可以基于多个终端的联合状态、联合动作以及综合奖励,来设计强化学习算法的状态、动作和奖励变量。此外,第一基站基于更新的状态变量,对第一模型进行决策优化,决策优化过程中若涉及到第一终端的动作变量的更新,第一基站及时通知第一终端。基于此,在一实施例中,所述方法还包括:
接收所述第一基站发送的第六消息;其中,
所述这第六消息的消息内容包括所述第一基站更新的以下信息的至少之一:
所述第一模型的分割点;
所述第一基站建议的所述第一部分模型中每一层的计算资源类型和/或计算资源数量。
实际应用时,第六消息可以为新动作(new action)消息。第一终端基于第六消息的消息内容更新第一部分模型及对应的每一层的计算资源相关参数,从而优化协作推理的推理效率。
对应于第一终端侧的推理任务的处理方法,本申请实施例还提供了一种推理任务的处理方法,应用于第一基站。参照图5,该方法包括:
步骤501:接收第一终端发送的第一请求。
其中,所述第一请求用于请求所述第一基站协助第一模型的推理;所述第一请求的消息内容包括所述第一模型每一层的层类型及每一层的计算量参数变量值。
实际应用时,所述第一请求可以通过接口请求(inference request)消息发送,用于请求第一基站协助完成第一模型的推理,这里,第一模型可以理解为智能模型,例如图1示出的有向无环的深度神经网络。第一请求的消息内容至少需要包括第一模型每一层的层类型及每一层的计算量参数的变量值,以辅助第一基站做出合理的协助推理相关的决策。其中,层类型包括但不限于卷积层、激活层、池化层、全连接层、丢弃(dropout)层、本地响应正则化层和/或其他神经网络的层类型;计算量参数的变量值包括但不限于图4所示出的部分。此外,可以理解,第一请求的消息内容中还携带有终端标识,包括第一终端的临时标识、第一终端已有RRC连接的标识等,用于指示第一请求是由第一终端发出。
此外,在一实施例中,所述第一请求的消息内容还包括以下信息的至少之一:
所述第一模型的层数;
所述第一模型的性能要求;所述性能要求包括推理时延要求、推理准确度要求和/或终端单次推理的能耗要求;
所述第一终端的状态信息;
所述第一终端各类计算资源的计算性能模型。
其中,上述各项性能要求通过对应的量化阈值进行要求。
这里,将强化学习放在第一基站侧,第一终端通过空口将上述信息传递给第一基站,并且第一基站基于强化学习,确定同意协助第一终端进行第一模型的推理,并向第一终端返回第一模型推理相关的决策。由于第一基站的计算资源和无线资源由多个终端所共享,因此,将强化学习放在第一基站侧,可以考虑资源的全局最优分配,以及考虑模型推理效果的全体较优。也就是说,第一基站可以基于多个终端的联合向量完成状态变量和动作变量的设计,可以基于多个终端奖励的综合计算值确定出奖励。
在一实施例中,在所述接收第一终端发送的第一请求之后,所述向所述第一终端返回关于所述第一请求的第一响应之前,所述方法还包括:
向RRM模块发送第三请求;以及,
接收RRM模块返回的关于所述第三请求的第三响应;其中,
所述第三请求用于请求获取所述第一终端的上下行无线信道质量信息;所述第三响应的消息内容包括所述第一终端的上下行无线信道质量信息和/或为所述第一终端分配的上下行无线信道带宽信息。
实际应用时,第三请求可以为信道质量信息请求(channel Quality inforequest)消息,第三响应可以为信道质量信息响应(channel Quality info response)消息。第一基站通过第三请求向RRM模块获取第一终端的上下行无线信道质量信息,例如信道质量指示(CQI,Channel Quality Indication)。此外,第一请求的消息内容中还包括第一终端的终端标识,例如第一终端的临时标识、第一终端已有RRC连接的标识等。第三响应的消息内容包括了第一终端的上下行无线信道质量信息和/或为所述第一终端分配的上下行无线信道带宽信息。
在一实施例中,在所述接收第一终端发送的第一请求之后,所述向所述第一终端返回关于所述第一请求的第一响应之前,所述方法还包括:
向所述第一基站的第二CRM模块发出第四请求;以及,
接收所述第二CRM模块返回的关于所述第四请求的第四响应;其中,
所述第四请求用于请求获取所述第一终端剩余可分配的计算资源的相关信息;所述第四请求的消息内容包括用于描述以下信息的至少一项:关于所述第一模型的任务类型;所述第一模型的层类型和/或每种层类型对应的计算量;所述第一模型的运算操作类型和/或运算操作类型对应的计算量;所述第四响应的消息内容包括所述第一终端剩余可分配的计算资源类型和/或计算资源数量。
这里,第四请求可以为计算资源信息请求(compute resource info request)消息,第一基站通过第四请求向第一基站侧的第二CRM模块获取第一基站剩余可分配计算资源的状态信息,第四请求的消息内容包括第一终端的终端标识,例如第一终端的临时标识、第一终端已有RRC连接的标识等;计算任务类型的描述,例如模型训练或模型推理;第一模型层类型的描述或每种层类型的计算量的统计描述;运算操作类型的描述,例如乘加运算、异或运算、激活函数运算等;每种运算操作类型的计算量的统计描述。第四响应的消息内容包括第一基站剩余可分配计算资源的类型,例如CUP、GPU、NPU等;每种类型的计算资源的剩余可分配数量,例如计算资源利用率、计算单元个数和/或FLOPS。
在一实施例中,在所述接收第一终端发送的第一请求之后,所述向所述第一终端返回关于所述第一请求的第一响应之前,所述方法还包括:
向所述第一基站的第二CPMM模块发送第五请求;以及,
接收所述第二CPMM模块返回的关于所述第五请求的第五响应;其中,
所述第五请求用于请求获取计算性能模型;所述第五请求的消息内容包括所述第一终端剩余可分配的计算资源的类型以及所述第一模型的层类型;所述第五响应的消息内容包括至少一个计算性能模型;所述至少一个计算性能模型表征应于所述第一模型每种层类型,所述第一终端剩余可分配的每类计算资源对的计算性能模型。
实际应用时,第一基站可以通过计算性能模型请求消息向第一基站侧的第二CPMM模块获取计算性能模型,对应的消息内容中包括了第一基站剩余可分配的计算资源的类型,还包括了第一模型所包含的所有层类型。此后,第二CPMM模块通过计算性能模型响应消息,为第一基站剩余可分配的每种计算资源配置对应于第一模型的每种层类型的计算性能模型。例如,第一基站剩余可分配的计算资源有3类,第一模型共涉及种层类型,那么,第一CPMM模块通过计算性能模型响应消息,总共需要为第一基站配置9个计算性能模型。
这样,第一基站基于上述交互,评估是否能满足第一终端对第一模型的协助推理的性能要求,并向第一终端返回关于第一请求的第一响应。
步骤502:向所述第一终端返回关于所述第一请求的第一响应。
其中,所述第一响应表征所述第一基站是否同意协助所述第一模型的推理。
在一实施例中,在所述第一响应表征所述第一基站同意协助所述第一模型的推理的情况下,所述第一响应的消息内容包括以下信息的至少之一:
所述第一模型的分割点;所述分割点用于将所述第一模型划分为由所述第一终端进行推理的第一部分模型和由所述第一基站进行推理的第二部分模型;
所述第一基站建议的所述第一部分模型中每一层的计算资源类型和/或计算资源数量。
实际应用时,第一响应可以通过接口响应消息发送,消息内容包括结果指示,用于表征第一基站同意协助第一模型的推理或不同意协助第一模型的推理。此外,若结果指示表征第一基站同意协助第一模型的推理,那么第一响应的消息内容还包括第一基站对第一模型的推理的相关初始决策,包括但不限于:模型分割点,以及基于模型分割点确定出的终端侧对应的部分模型中每一层涉及的计算资源类型和/或计算资源数量。
在一实施例中,在所述第一基站同意协助所述第一模型的推理的情况下,所述方法还包括:
接收所述第一终端发送的第二消息;其中,
所述第二消息的消息内容包括由所述第一基站进行推理的第二部分模型的模型参数。
第一终端将第二消息发送给第一基站。实际应用时,第二消息可以为模型计算消息,且第二消息的消息内容包括由第二部分模型的模型参数。第一基站在接收到第二消息之后,基于第一基站的初始决策,执行第一基站相关的推理,包括:将初始决策中的上下行带宽分配建议通过无线资源分配建议(radio resource allocation suggestion)消息指示给第一基站侧的RRM模块。无线资源分配建议消息的消息内容包括:建议为第一模型的协作推理任务分配的上下行信道带宽,例如RB数量、保障速率等。此外,第一基站将第二部分模型及对应的计算资源分配信息通过基站的计算资源分配建议(compute resourceallocation suggestion)消息发送给第一基站侧的第二CRM模块,计算资源分配建议消息的消息内容包括第二部分模型的模型参数、所述第二部分模型每一层的计算资源类型和计算资源数量、以及所述第二部分模型的层间计算时序和数据传输关系,其中,计算资源数量可以表征为计算资源利用率、计算单元个数和/或FLOPS。这样,第二CRM模块可以基于计算资源分配建议消息的消息内容,将第二部分模型各个层对应的计算任务分配到对应的计算资源上,并配置对应的计算资源之间的数据传输关系。具体地,第二CRM模块在明确关于计算资源类型的选择后,将第一模型不同层的计算任务分配到不同的处理器中,并配置不同处理器之间的数据传输关系。
在第一终端与第一基站对第一模型进行协作推理的过程中,实际应用时,推理计算的业务流程通过第一终端与第一基站的Dinfer_U模块配合完成。在业务面,交互流程主要包括:第一终端完成第一部分模型的推理,将中间结果发送给第一终端侧的第一Dinfer_U模块,由第一Dinfer_U模块将处理后的中间结果发送给第一基站侧的第二Dinfer_U模块。第二Dinfer_U模块将接收到的处理结果进行对应的反处理,这样,中间结果被发送到第一基站侧的第二CRM模块中,并在第一基站侧计算出第二部分模型对应的推理结果后,通过同样的路径反向地将推理结果传送到延缓一终端。在协作推理过程中,第一终端每隔一段时间统计该时间段内的推理性能,包括推理准确度、平均推理时延、平均单次推理能耗等,并基于统计出的推理性能计算奖励值,通过奖励(reward)消息将计算出的奖励值发送给第一基站。在第一基站侧,基于强化学习,不断训练第一模型,并优化第一模型相关的决策。并且,当同时执行多个终端的协作推理任务时,第一基站可以基于多个终端的联合状态、联合动作以及综合奖励,来设计强化学习算法的状态、动作和奖励变量。此外,第一基站基于更新的状态变量,对第一模型进行决策优化,决策优化过程中若涉及到第一终端的动作变量的更新,第一基站及时通知第一终端。
在一实施例中,在接收所述第一终端发送的第二消息之后,所述方法还包括:
接收所述第一终端发送的第四消息;所述第四消息的消息内容包括所述第一终端更新的状态变量;
基于所述第四消息,向所述第一终端发送第六消息;所述这第六消息的消息内容包括所述第一基站更新的以下信息的至少之一:
所述第一模型的分割点;所述分割点用于将所述第一模型划分为由所述第一终端进行推理的第一部分模型和由所述第一基站进行推理的第二部分模型;
所述第一基站建议的所述第一部分模型中每一层的计算资源类型和/或计算资源数量。
这里,在第一模型的推理过程中,第一终端将更新的最新的状态变量发送给第一基站。实际应用时,第四消息可以为第一终端向第一基站发送的状态更新消息,状态更新消息的消息内容包括但不限于变量更新指示和更新后的状态变量的变量值。
通常,在前文提及的网络侧的状态变量中有任一状态变量的变化值超过对应阈值时,第一基站将重组最新的状态变量,此时,第一基站可以通过状态更新请求消息获取第一终端的状态变量的最新值。
在第一终端与第一基站对第一模型进行协作推理的过程中,第一基站基于强化学习,不断训练第一模型,并优化第一模型相关的决策。并且,当同时执行多个终端的协作推理任务时,第一基站可以基于多个终端的联合状态、联合动作以及综合奖励,来设计强化学习算法的状态、动作和奖励变量。此外,第一基站基于更新的状态变量,对第一模型进行决策优化,决策优化过程中若涉及到第一终端的动作变量的更新,第一基站及时通知第一终端。实际应用时,第六消息可以为新动作消息。第一终端基于第六消息的消息内容更新第一部分模型及对应的每一层的计算资源相关参数,从而优化协作推理的推理效率。
本申请实施例中,第一终端向第一基站发送第一请求;所述第一请求用于请求所述第一基站协助第一模型的推理;所述第一请求的消息内容至少包括所述第一模型每一层的层类型及每一层的计算量参数的变量值;第一基站向第一终端返回关于所述第一请求的第一响应;所述第一响应表征所述第一基站是否同意协助所述第一模型的推理。上述方案基于终端与基站之间的空口消息交互,由基站基于模型涉及的层类型及计算量参数的变量值,进行模型推理任务的相关决策,在满足了推理时延、精度等要求的前提下,一定程度降低了终端能耗。图6示出了本申请实施例终端与基站的交互流程示意图,其中包括了终端与基站之间的空口交互。并且,由于上述方案考虑了无线信道质量的不稳定性给推理性能带来的影响,能够动态地调整第一模型的模型分割点以及计算资源的硬件配置,从而能够保护推理性能的持续达成,提供了推理性能的稳定性。
下面结合应用实施例对本申请再作进一步详细的描述。
本应用实施例中,终端有CPU,GPU和DSP三个计算处理器;网络侧基站有CPU和GPU两种计算处理器。协作推理任务为图像分类推理,采用的DNN模型为MobileNet v1,该模型由14个卷积层和1个全连接层构成,对应的层编号从模型的输入到输出依次为1~15。图7是终端侧计算资源的硬件信息示例。MobileNet v1的网络结构包括:深度可分离卷积(depthwise separable convolution),由深度卷积(DW,Depthwise)和逐点卷积(PW,Pointwise)构成,应算成一层,如图8所示,每一层的stride,filter shape和input size是计算资源计算性能模型的输入参数变量。
表1
在本应用实施例场景下,空口交互的每条消息中所携带内容如下:
1、inference request消息:终端标识或终端已有连接标识、图8所示表格内容,消息内容还可以包括T_thres、A_thres、P_thres、消息内容还可以包括表1编号2内容;消息内容还可以包括表1编号8;
2、inference response消息:包括结果指示(同意或不同意),若指示同意,则消息内容还包括表1编号3和5的内容;
3、model to compute消息:图8所示表格中矩形框内的内容,终端侧计算任务发配成功指示;
4、reward消息:表1编号6内容;
5、state update消息:表1编号2内容;
6、state update request消息:指示要求更新哪一类或几类信息的状态,可指示的信息包括资源状态信息、信道状态信息、也可以包括计算资源连接带宽状态信息;
7、new action消息:包括表1编号3和5的内容。
为了实现本申请实施例第一终端侧的方法,本申请实施例还提供了一种推理任务的处理装置,设置在第一终端上,如图9所示,该装置包括:
第一发送单元901,用于向第一基站发送第一请求;所述第一请求用于请求所述第一基站协助第一模型的推理;所述第一请求的消息内容至少包括所述第一模型每一层的层类型及每一层的计算量参数的变量值;
第一接收单元902,用于接收所述第一基站返回的关于所述第一请求的第一响应;所述第一响应表征所述第一基站是否同意协助所述第一模型的推理。
其中,在一实施例中,所述第一请求的消息内容还包括以下信息的至少之一:
所述第一模型的层数;
所述第一模型的性能要求;所述性能要求包括推理时延要求、推理准确度要求和/或终端单次推理的能耗要求;
所述第一终端的状态信息;
所述第一终端各类计算资源的计算性能模型。
在一实施例中,所述第一请求的消息内容还包括所述第一终端各类计算资源对应的计算性能模型,所述装置还包括:
第三发送单元,用于在所述向第一基站发送第一请求之前,向所述第一终端的第一CPMM模块发出第二请求;所述第二请求用于向所述第一CPMM模块获取计算性能模型;所述第二请求的消息内容包括所述第一终端剩余可分配的计算资源的类型以及所述第一模型每一层的层类型;
第三接收单元,用于获取所述第一CPMM模块返回的关于所述第二请求的第二响应;所述第二响应的消息内容包括至少一个计算性能模型;所述至少一个计算性能模型表征对应于所述第一模型每种层类型,所述第一终端剩余可分配的每类计算资源对的计算性能模型。
在一实施例中,在所述第一响应表征所述第一基站同意协助所述第一模型的推理的情况下,所述第一响应的消息内容包括以下信息的至少之一:
所述第一模型的分割点;所述分割点用于将所述第一模型划分为由所述第一终端进行推理的第一部分模型和由所述第一基站进行推理的第二部分模型;
所述第一基站建议的所述第一部分模型中每一层的计算资源类型和/或计算资源数量。
在一实施例中,在所述第一响应表征所述第一基站同意协助所述第一模型的推理的情况下,所述装置还包括:
第四发送单元,用于向所述第一终端的第一CRM模块发出第一消息;以及,
第五发送单元,用于向所述第一基站发送第二消息;其中,
所述第一消息的消息内容包括由所述第一终端进行推理的第一部分模型的模型参数、所述第一部分模型每一层的计算资源类型和计算资源数量、以及所述第一部分模型的层间计算时序和数据传输关系;所述第二消息的消息内容包括由所述第一基站进行推理的第二部分模型的模型参数。
在一实施例中,所述装置还包括:
第六发送单元,用于在所述向所述第一基站发送第二消息之后,在确认所述第一基站对所述第二部分模型配置完成后,向所述第一CRM模块发送第三消息;其中,
所述第三消息用于指示对所述第一部分模型进行推理。
在一实施例中,所述装置还包括:
第七发送单元,用于向所述第一基站发送第四消息;其中,
所述第四消息的消息内容包括所述第一终端更新的状态变量。
在一实施例中,所述第七发送单元,用于:
当所述第一终端的任一状态变量的变化值超过对应阈值时,向所述第一基站发送第四消息;和/或,
在接收到所述第一基站发送的第五消息的情况下,向所述第一基站发送第四消息;其中,
所述第五消息用于请求获取所述第一终端的状态变量的最新变量值。
在一实施例中,所述装置还包括:
第四接收单元,用于接收所述第一基站发送的第六消息;其中,
所述这第六消息的消息内容包括所述第一基站更新的以下信息的至少之一:
所述第一模型的分割点;
所述第一基站建议的所述第一部分模型中每一层的计算资源类型和/或计算资源数量。
实际应用时,上述各单元可由推理任务的处理装置中的通信接口实现。
为了实现本申请实施例第一基站侧的方法,本申请实施例还提供了一种推理任务的处理装置,设置在第一基站上,如图10所示,该装置包括:
第二接收单元1001,用于接收第一终端发送的第一请求;所述第一请求用于请求所述第一基站协助第一模型的推理;所述第一请求的消息内容包括所述第一模型每一层的层类型及每一层的计算量参数变量值;
第二发送单元1002,用于向所述第一终端返回关于所述第一请求的第一响应;所述第一响应表征所述第一基站是否同意协助所述第一模型的推理。
在一实施例中,所述装置还包括:
第八发送单元,用于在所述接收第一终端发送的第一请求之后,所述向所述第一终端返回关于所述第一请求的第一响应之前,向无RRM模块发送第三请求;以及,
第五接收单元,用于接收RRM模块返回的关于所述第三请求的第三响应;其中,
所述第三请求用于请求获取所述第一终端的上下行无线信道质量信息;所述第三响应的消息内容包括所述第一终端的上下行无线信道质量信息和/或为所述第一终端分配的上下行无线信道带宽信息。
在一实施例中,所述装置还包括:
第九发送单元,用于在所述接收第一终端发送的第一请求之后,所述向所述第一终端返回关于所述第一请求的第一响应之前,向所述第一基站的第二CRM模块发出第四请求;以及,
第六接收单元,用于接收所述第二CRM模块返回的关于所述第四请求的第四响应;其中,
所述第四请求用于请求获取所述第一终端剩余可分配的计算资源的相关信息;所述第四请求的消息内容包括用于描述以下信息的至少一项:关于所述第一模型的任务类型;所述第一模型的层类型和/或每种层类型对应的计算量;所述第一模型的运算操作类型和/或运算操作类型对应的计算量;所述第四响应的消息内容包括所述第一终端剩余可分配的计算资源类型和/或计算资源数量。
在一实施例中,所述装置还包括:
第十发送单元,用于在所述接收第一终端发送的第一请求之后,所述向所述第一终端返回关于所述第一请求的第一响应之前,向所述第一基站的第二CPMM模块发送第五请求;以及,
第七接收单元,用于接收所述第二CPMM模块返回的关于所述第五请求的第五响应;其中,
所述第五请求用于请求获取计算性能模型;所述第五请求的消息内容包括所述第一终端剩余可分配的计算资源的类型以及所述第一模型的层类型;所述第五响应的消息内容包括至少一个计算性能模型;所述至少一个计算性能模型表征应于所述第一模型每种层类型,所述第一终端剩余可分配的每类计算资源对的计算性能模型。
在一实施例中,在所述第一基站同意协助所述第一模型的推理的情况下,所述装置还包括:
第八接收单元,用于接收所述第一终端发送的第二消息;其中,
所述第二消息的消息内容包括由所述第一基站进行推理的第二部分模型的模型参数。
在一实施例中,所述装置还包括:
第九接收单元,用于在接收所述第一终端发送的第二消息之后,接收所述第一终端发送的第四消息;所述第四消息的消息内容包括所述第一终端更新的状态变量;
第十一发送单元,用于基于所述第四消息,向所述第一终端发送第六消息;所述第六消息的消息内容包括所述第一基站更新的以下信息的至少之一:
所述第一模型的分割点;所述分割点用于将所述第一模型划分为由所述第一终端进行推理的第一部分模型和由所述第一基站进行推理的第二部分模型;
所述第一基站建议的所述第一部分模型中每一层的计算资源类型和/或计算资源数量。
实际应用时,上述各单元可由推理任务的处理装置中的处理器结合通信接口实现。
需要说明的是:上述实施例提供的推理任务的处理装置在进行推理任务的处理时,仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述处理分配由不同的程序模块完成,即将装置的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分处理。另外,上述实施例提供的推理任务的处理装置与推理任务的处理方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
基于上述程序模块的硬件实现,且为了实现本申请实施例第一终端侧的方法,本申请实施例还提供了一种第一终端,如图11所示,第一终端1100包括:
第一通信接口1101,能够与其他网络节点进行信息交互;
第一处理器1102,与所述第一通信接口1101连接,以实现与其他网络节点进行信息交互,用于运行计算机程序时,执行上述第一终端侧一个或多个技术方案提供的方法。而所述计算机程序存储在第一存储器1103上。
具体地,所述第一通信接口1101,用于向第一基站发送第一请求;所述第一请求用于请求所述第一基站协助第一模型的推理;所述第一请求的消息内容至少包括所述第一模型每一层的层类型及每一层的计算量参数的变量值;
还用于接收所述第一基站返回的关于所述第一请求的第一响应;所述第一响应表征所述第一基站是否同意协助所述第一模型的推理。
其中,在一实施例中,所述第一请求的消息内容还包括以下信息的至少之一:
所述第一模型的层数;
所述第一模型的性能要求;所述性能要求包括推理时延要求、推理准确度要求和/或终端单次推理的能耗要求;
所述第一终端的状态信息;
所述第一终端各类计算资源的计算性能模型。
在一实施例中,所述第一请求的消息内容还包括所述第一终端各类计算资源对应的计算性能模型,在所述向第一基站发送第一请求之前,所述第一通信接口1101还用于:
向所述第一终端的第一CPMM模块发出第二请求;所述第二请求用于向所述第一CPMM模块获取计算性能模型;所述第二请求的消息内容包括所述第一终端剩余可分配的计算资源的类型以及所述第一模型每一层的层类型;
获取所述第一CPMM模块返回的关于所述第二请求的第二响应;所述第二响应的消息内容包括至少一个计算性能模型;所述至少一个计算性能模型表征对应于所述第一模型每种层类型,所述第一终端剩余可分配的每类计算资源对的计算性能模型。
在一实施例中,在所述第一响应表征所述第一基站同意协助所述第一模型的推理的情况下,所述第一响应的消息内容包括以下信息的至少之一:
所述第一模型的分割点;所述分割点用于将所述第一模型划分为由所述第一终端进行推理的第一部分模型和由所述第一基站进行推理的第二部分模型;
所述第一基站建议的所述第一部分模型中每一层的计算资源类型和/或计算资源数量。
在一实施例中,在所述第一响应表征所述第一基站同意协助所述第一模型的推理的情况下,所述第一通信接口1101还用于:
向所述第一终端的第一CRM模块发出第一消息;以及,
向所述第一基站发送第二消息;其中,
所述第一消息的消息内容包括由所述第一终端进行推理的第一部分模型的模型参数、所述第一部分模型每一层的计算资源类型和计算资源数量、以及所述第一部分模型的层间计算时序和数据传输关系;所述第二消息的消息内容包括由所述第一基站进行推理的第二部分模型的模型参数。
在一实施例中,在所述向所述第一基站发送第二消息之后,所述第一通信接口1101还用于:
在确认所述第一基站对所述第二部分模型配置完成后,向所述第一CRM模块发送第三消息;其中,
所述第三消息用于指示对所述第一部分模型进行推理。
在一实施例中,所述第一通信接口1101还用于:
向所述第一基站发送第四消息;其中,
所述第四消息的消息内容包括所述第一终端更新的状态变量。
在一实施例中,所述第一通信接口1101用于:
当所述第一终端的任一状态变量的变化值超过对应阈值时,向所述第一基站发送第四消息;和/或,
在接收到所述第一基站发送的第五消息的情况下,向所述第一基站发送第四消息;其中,
所述第五消息用于请求获取所述第一终端的状态变量的最新变量值。
在一实施例中,所述第一通信接口1101还用于:
接收所述第一基站发送的第六消息;其中,
所述这第六消息的消息内容包括所述第一基站更新的以下信息的至少之一:
所述第一模型的分割点;
所述第一基站建议的所述第一部分模型中每一层的计算资源类型和/或计算资源数量。
需要说明的是:第一处理器1102和第一通信接口1101的具体处理过程可参照上述方法理解。
当然,实际应用时,第一终端1100中的各个组件通过总线系统1104耦合在一起。可理解,总线系统1104用于实现这些组件之间的连接通信。总线系统1104除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图11中将各种总线都标为总线系统1104。
本申请实施例中的第一存储器1103用于存储各种类型的数据以支持第一终端1100的操作。这些数据的示例包括:用于在第一终端1100上操作的任何计算机程序。
上述本申请实施例揭示的方法可以应用于所述第一处理器1102中,或者由所述第一处理器1102实现。所述第一处理器1102可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过所述第一处理器1102中的硬件的集成逻辑电路或者软件形式的指令完成。上述的所述第一处理器1102可以是通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。所述第一处理器1102可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于第一存储器1103,所述第一处理器1102读取第一存储器1103中的信息,结合其硬件完成前述方法的步骤。
在示例性实施例中,第一终端1100可以被一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)、通用处理器、控制器、微控制器(MCU,Micro Controller Unit)、微处理器(Microprocessor)、或者其他电子元件实现,用于执行前述方法。
基于上述程序模块的硬件实现,且为了实现本申请实施例第一基站侧的方法,本申请实施例还提供了一种第一基站,如图12所示,该第一基站1200包括:
第二通信接口1201,能够与其他网络节点进行信息交互;
第二处理器1202,与所述第二通信接口1201连接,以实现与其他网络节点进行信息交互,用于运行计算机程序时,执行上述第一基站侧一个或多个技术方案提供的方法。而所述计算机程序存储在第二存储器1203上。
具体地,所述第二通信接口1201,用于接收第一终端发送的第一请求;所述第一请求用于请求所述第一基站协助第一模型的推理;所述第一请求的消息内容包括所述第一模型每一层的层类型及每一层的计算量参数变量值;
向所述第一终端返回关于所述第一请求的第一响应;所述第一响应表征所述第一基站是否同意协助所述第一模型的推理。
其中,在一实施例中,所述第二通信接口1201还用于:
在所述接收第一终端发送的第一请求之后,所述向所述第一终端返回关于所述第一请求的第一响应之前,向RRM模块发送第三请求;以及,
接收RRM模块返回的关于所述第三请求的第三响应;其中,
所述第三请求用于请求获取所述第一终端的上下行无线信道质量信息;所述第三响应的消息内容包括所述第一终端的上下行无线信道质量信息和/或为所述第一终端分配的上下行无线信道带宽信息。
在一实施例中,所述第二通信接口1201还用于:
在所述接收第一终端发送的第一请求之后,所述向所述第一终端返回关于所述第一请求的第一响应之前,向所述第一基站的第二CRM模块发出第四请求;以及,
接收所述第二CRM模块返回的关于所述第四请求的第四响应;其中,
所述第四请求用于请求获取所述第一终端剩余可分配的计算资源的相关信息;所述第四请求的消息内容包括用于描述以下信息的至少一项:关于所述第一模型的任务类型;所述第一模型的层类型和/或每种层类型对应的计算量;所述第一模型的运算操作类型和/或运算操作类型对应的计算量;所述第四响应的消息内容包括所述第一终端剩余可分配的计算资源类型和/或计算资源数量。
在一实施例中,所述第二通信接口1201还用于:
在所述接收第一终端发送的第一请求之后,所述向所述第一终端返回关于所述第一请求的第一响应之前,向所述第一基站的第二CPMM模块发送第五请求;以及,
接收所述第二CPMM模块返回的关于所述第五请求的第五响应;其中,
所述第五请求用于请求获取计算性能模型;所述第五请求的消息内容包括所述第一终端剩余可分配的计算资源的类型以及所述第一模型的层类型;所述第五响应的消息内容包括至少一个计算性能模型;所述至少一个计算性能模型表征应于所述第一模型每种层类型,所述第一终端剩余可分配的每类计算资源对的计算性能模型。
在一实施例中,在所述第一基站同意协助所述第一模型的推理的情况下,所述第二通信接口1201还用于:
接收所述第一终端发送的第二消息;其中,
所述第二消息的消息内容包括由所述第一基站进行推理的第二部分模型的模型参数。
在一实施例中,所述第二通信接口1201还用于:
在接收所述第一终端发送的第二消息之后,接收所述第一终端发送的第四消息;所述第四消息的消息内容包括所述第一终端更新的状态变量;
基于所述第四消息,向所述第一终端发送第六消息;所述第六消息的消息内容包括所述第一基站更新的以下信息的至少之一:
所述第一模型的分割点;所述分割点用于将所述第一模型划分为由所述第一终端进行推理的第一部分模型和由所述第一基站进行推理的第二部分模型;
所述第一基站建议的所述第一部分模型中每一层的计算资源类型和/或计算资源数量。
需要说明的是:第二处理器1202和第二通信接口1201的具体处理过程可参照上述方法理解。
当然,实际应用时,第一基站1200中的各个组件通过总线系统1204耦合在一起。可理解,总线系统1204用于实现这些组件之间的连接通信。总线系统1204除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图12中将各种总线都标为总线系统1204。
本申请实施例中的第二存储器1203用于存储各种类型的数据以支持第一基站1200操作。这些数据的示例包括:用于在第一基站1200上操作的任何计算机程序。
上述本申请实施例揭示的方法可以应用于所述第二处理器1202中,或者由所述第二处理器1202实现。所述第二处理器1202可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过所述第二处理器1202中的硬件的集成逻辑电路或者软件形式的指令完成。上述的所述第二处理器1202可以是通用处理器、DSP,或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。所述第二处理器1202可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于第二存储器1203,所述第二处理器1202读取第二存储器1203中的信息,结合其硬件完成前述方法的步骤。
在示例性实施例中,第一基站1200可以被一个或多个ASIC、DSP、PLD、CPLD、FPGA、通用处理器、控制器、MCU、Microprocessor、或其他电子元件实现,用于执行前述方法。
可以理解,本申请实施例的存储器(第一存储器1103、第二存储器1203)可以是易失性存储器或者非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,ErasableProgrammable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,ElectricallyErasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,ferromagneticrandom access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,Random Access Memory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,SynchronousStatic Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random AccessMemory)、同步动态随机存取存储器(SDRAM,Synchronous Dynamic Random AccessMemory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data RateSynchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM,SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本申请实施例描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
在示例性实施例中,本申请实施例还提供了一种存储介质,即计算机存储介质,具体为计算机可读存储介质,例如包括存储计算机程序的第一存储器1103,上述计算机程序可由第一终端1100的第一处理器1102执行,以完成前述第一终端侧方法所述步骤。再比如包括存储计算机程序的第二存储器1203,上述计算机程序可由第一基站1200的第二处理器1202执行,以完成前述第一基站侧方法所述步骤。计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器。
需要说明的是:“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中术语“至少一种”表示多个中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。
另外,本申请实施例所记载的技术方案之间,在不冲突的情况下,可以任意组合。
以上所述,仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。

Claims (22)

1.一种推理任务的处理方法,其特征在于,应用于第一终端,包括:
向第一基站发送第一请求;所述第一请求用于请求所述第一基站协助第一模型的推理;所述第一请求的消息内容至少包括所述第一模型每一层的层类型及每一层的计算量参数的变量值;
接收所述第一基站返回的关于所述第一请求的第一响应;所述第一响应表征所述第一基站是否同意协助所述第一模型的推理。
2.根据权利要求1所述的方法,其特征在于,所述第一请求的消息内容还包括以下信息的至少之一:
所述第一模型的层数;
所述第一模型的性能要求;所述性能要求包括推理时延要求、推理准确度要求和/或终端单次推理的能耗要求;
所述第一终端的状态信息;
所述第一终端各类计算资源的计算性能模型。
3.根据权利要求1所述的方法,其特征在于,所述第一请求的消息内容还包括所述第一终端各类计算资源对应的计算性能模型,在所述向第一基站发送第一请求之前,所述方法还包括:
向所述第一终端的第一计算性能模型管理CPMM模块发出第二请求;所述第二请求用于向所述第一CPMM模块获取计算性能模型;所述第二请求的消息内容包括所述第一终端剩余可分配的计算资源的类型以及所述第一模型每一层的层类型;
获取所述第一CPMM模块返回的关于所述第二请求的第二响应;所述第二响应的消息内容包括至少一个计算性能模型;所述至少一个计算性能模型表征对应于所述第一模型每种层类型,所述第一终端剩余可分配的每类计算资源对的计算性能模型。
4.根据权利要求1所述的方法,其特征在于,在所述第一响应表征所述第一基站同意协助所述第一模型的推理的情况下,所述第一响应的消息内容包括以下信息的至少之一:
所述第一模型的分割点;所述分割点用于将所述第一模型划分为由所述第一终端进行推理的第一部分模型和由所述第一基站进行推理的第二部分模型;
所述第一基站建议的所述第一部分模型中每一层的计算资源类型和/或计算资源数量。
5.根据权利要求1所述的方法,其特征在于,在所述第一响应表征所述第一基站同意协助所述第一模型的推理的情况下,所述方法还包括:
向所述第一终端的第一计算资源管理CRM模块发出第一消息;以及,
向所述第一基站发送第二消息;其中,
所述第一消息的消息内容包括由所述第一终端进行推理的第一部分模型的模型参数、所述第一部分模型每一层的计算资源类型和计算资源数量、以及所述第一部分模型的层间计算时序和数据传输关系;所述第二消息的消息内容包括由所述第一基站进行推理的第二部分模型的模型参数。
6.根据权利要求5所述的方法,其特征在于,在所述向所述第一基站发送第二消息之后,所述方法还包括:
在确认所述第一基站对所述第二部分模型配置完成后,向所述第一CRM模块发送第三消息;其中,
所述第三消息用于指示对所述第一部分模型进行推理。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
向所述第一基站发送第四消息;其中,
所述第四消息的消息内容包括所述第一终端更新的状态变量。
8.根据权利要求7所述的方法,其特征在于,所述向所述第一基站发送第四消息,包括:
当所述第一终端的任一状态变量的变化值超过对应阈值时,向所述第一基站发送第四消息;和/或,
在接收到所述第一基站发送的第五消息的情况下,向所述第一基站发送第四消息;其中,
所述第五消息用于请求获取所述第一终端的状态变量的最新变量值。
9.根据权利要求4所述的方法,其特征在于,所述方法还包括:
接收所述第一基站发送的第六消息;其中,
所述这第六消息的消息内容包括所述第一基站更新的以下信息的至少之一:
所述第一模型的分割点;
所述第一基站建议的所述第一部分模型中每一层的计算资源类型和/或计算资源数量。
10.一种推理任务的处理方法,其特征在于,应用于第一基站,包括:
接收第一终端发送的第一请求;所述第一请求用于请求所述第一基站协助第一模型的推理;所述第一请求的消息内容包括所述第一模型每一层的层类型及每一层的计算量参数变量值;
向所述第一终端返回关于所述第一请求的第一响应;所述第一响应表征所述第一基站是否同意协助所述第一模型的推理。
11.根据权利要求10所述的方法,其特征在于,在所述接收第一终端发送的第一请求之后,所述向所述第一终端返回关于所述第一请求的第一响应之前,所述方法还包括:
向无线资源管理RRM模块发送第三请求;以及,
接收RRM模块返回的关于所述第三请求的第三响应;其中,
所述第三请求用于请求获取所述第一终端的上下行无线信道质量信息;所述第三响应的消息内容包括所述第一终端的上下行无线信道质量信息和/或为所述第一终端分配的上下行无线信道带宽信息。
12.根据权利要求10所述的方法,其特征在于,在所述接收第一终端发送的第一请求之后,所述向所述第一终端返回关于所述第一请求的第一响应之前,所述方法还包括:
向所述第一基站的第二CRM模块发出第四请求;以及,
接收所述第二CRM模块返回的关于所述第四请求的第四响应;其中,
所述第四请求用于请求获取所述第一终端剩余可分配的计算资源的相关信息;所述第四请求的消息内容包括用于描述以下信息的至少一项:关于所述第一模型的任务类型;所述第一模型的层类型和/或每种层类型对应的计算量;所述第一模型的运算操作类型和/或运算操作类型对应的计算量;所述第四响应的消息内容包括所述第一终端剩余可分配的计算资源类型和/或计算资源数量。
13.根据权利要求10所述的方法,其特征在于,在所述接收第一终端发送的第一请求之后,所述向所述第一终端返回关于所述第一请求的第一响应之前,所述方法还包括:
向所述第一基站的第二CPMM模块发送第五请求;以及,
接收所述第二CPMM模块返回的关于所述第五请求的第五响应;其中,
所述第五请求用于请求获取计算性能模型;所述第五请求的消息内容包括所述第一终端剩余可分配的计算资源的类型以及所述第一模型的层类型;所述第五响应的消息内容包括至少一个计算性能模型;所述至少一个计算性能模型表征应于所述第一模型每种层类型,所述第一终端剩余可分配的每类计算资源对的计算性能模型。
14.根据权利要求10所述的方法,其特征在于,在所述第一基站同意协助所述第一模型的推理的情况下,所述方法还包括:
接收所述第一终端发送的第二消息;其中,
所述第二消息的消息内容包括由所述第一基站进行推理的第二部分模型的模型参数。
15.根据权利要求10所述的方法,其特征在于,在接收所述第一终端发送的第二消息之后,所述方法还包括:
接收所述第一终端发送的第四消息;所述第四消息的消息内容包括所述第一终端更新的状态变量;
基于所述第四消息,向所述第一终端发送第六消息;所述第六消息的消息内容包括所述第一基站更新的以下信息的至少之一:
所述第一模型的分割点;所述分割点用于将所述第一模型划分为由所述第一终端进行推理的第一部分模型和由所述第一基站进行推理的第二部分模型;
所述第一基站建议的所述第一部分模型中每一层的计算资源类型和/或计算资源数量。
16.一种推理任务的处理装置,其特征在于,包括:
第一发送单元,用于向第一基站发送第一请求;所述第一请求用于请求所述第一基站协助第一模型的推理;所述第一请求的消息内容至少包括所述第一模型每一层的层类型及每一层的计算量参数的变量值;
第一接收单元,用于接收所述第一基站返回的关于所述第一请求的第一响应;所述第一响应表征所述第一基站是否同意协助所述第一模型的推理。
17.一种推理任务的处理装置,其特征在于,包括:
第二接收单元,用于接收第一终端发送的第一请求;所述第一请求用于请求所述第一基站协助第一模型的推理;所述第一请求的消息内容包括所述第一模型每一层的层类型及每一层的计算量参数变量值;
第二发送单元,用于向所述第一终端返回关于所述第一请求的第一响应;所述第一响应表征所述第一基站是否同意协助所述第一模型的推理。
18.一种第一终端,其特征在于,包括:第一处理器及第一通信接口;其中,
所述第一通信接口,用于向第一基站发送第一请求,以及接收所述第一基站返回的关于所述第一请求的第一响应;其中,
所述第一请求用于请求所述第一基站协助第一模型的推理;所述第一请求的消息内容至少包括所述第一模型每一层的层类型及每一层的计算量参数的变量值;所述第一响应表征所述第一基站是否同意协助所述第一模型的推理。
19.一种第一基站,其特征在于,包括:第二处理器及第二通信接口;其中,
所述第二通信接口,用于接收第一终端发送的第一请求,以及向所述第一终端返回关于所述第一请求的第一响应;其中,
所述第一请求用于请求所述第一基站协助第一模型的推理;所述第一请求的消息内容包括所述第一模型每一层的层类型及每一层的计算量参数变量值;所述第一响应表征所述第一基站是否同意协助所述第一模型的推理。
20.一种第一终端,其特征在于,包括:第一处理器和用于存储能够在处理器上运行的计算机程序的第一存储器,
其中,所述第一处理器用于运行所述计算机程序时,执行权利要求1至9任一项所述方法的步骤。
21.一种第一基站,其特征在于,包括:第二处理器和用于存储能够在处理器上运行的计算机程序的第一存储器,
其中,所述第二处理器用于运行所述计算机程序时,执行权利要求10至15任一项所述方法的步骤。
22.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至9任一项所述方法的步骤,或者实现权利要求10至15任一项所述方法的步骤。
CN202210369195.1A 2022-04-08 2022-04-08 推理任务的处理方法、装置、终端、基站及存储介质 Pending CN116938925A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210369195.1A CN116938925A (zh) 2022-04-08 2022-04-08 推理任务的处理方法、装置、终端、基站及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210369195.1A CN116938925A (zh) 2022-04-08 2022-04-08 推理任务的处理方法、装置、终端、基站及存储介质

Publications (1)

Publication Number Publication Date
CN116938925A true CN116938925A (zh) 2023-10-24

Family

ID=88376313

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210369195.1A Pending CN116938925A (zh) 2022-04-08 2022-04-08 推理任务的处理方法、装置、终端、基站及存储介质

Country Status (1)

Country Link
CN (1) CN116938925A (zh)

Similar Documents

Publication Publication Date Title
Hazarika et al. DRL-based resource allocation for computation offloading in IoV networks
CN111835827A (zh) 物联网边缘计算任务卸载方法及系统
CN113268341B (zh) 电网边缘计算任务的分配方法、装置、设备和存储介质
CN104869151A (zh) 一种业务卸载方法及系统
Alghamdi et al. Data quality-aware task offloading in mobile edge computing: An optimal stopping theory approach
CN114615265B (zh) 边缘计算环境下基于深度强化学习的车载任务卸载方法
CN115034390B (zh) 一种基于云边端协同的深度学习模型推理加速方法
CN113687875B (zh) 一种车联网中车辆任务卸载方法及装置
CN112672382B (zh) 混合协作计算卸载方法、装置、电子设备及存储介质
CN114945044B (zh) 基于联邦学习的数字孪生平台构建方法、装置及设备
CN116541106B (zh) 计算任务卸载方法、计算设备及存储介质
CN114595049A (zh) 一种云边协同任务调度方法及装置
CN110766145A (zh) 一种人工智能处理器的学习任务编译方法及相关产品
CN115665869A (zh) 基于边缘计算和有向无环图的多用户协作平台及其方法
CN102745192B (zh) 一种混合动力车辆的分布式控制系统的任务分配系统
CN116566975A (zh) 一种端边协作模型推理方法、装置和相关设备
CN118467127A (zh) 基于多智能体协作的移动边缘计算任务调度卸载方法
CN114995990A (zh) 计算任务卸载方法、装置、电子设备及计算机存储介质
CN102774376B (zh) 一种混合动力车辆的分布式控制系统的任务分配方法
CN116938925A (zh) 推理任务的处理方法、装置、终端、基站及存储介质
CN116245163A (zh) 模型处理方法、系统及非易失性存储介质
CN116528295A (zh) 基于多智能体强化学习的车联网雾计算分层任务卸载方法
CN115087042A (zh) 5g专网数据分流方法、装置、设备及存储介质
CN114138466A (zh) 面向智慧公路的任务协同处理方法、装置及存储介质
CN118519786B (zh) 端侧设备下深度学习模型训练时的内存管理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination