CN114254751A

CN114254751A - 协同推理方法及通信装置

Info

Publication number: CN114254751A
Application number: CN202010998618.7A
Authority: CN
Inventors: 杨水根; 周彧; 晋英豪; 秦东润
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2020-09-21
Filing date: 2020-09-21
Publication date: 2022-03-29
Also published as: WO2022057510A1; EP4202791A1; EP4202791A4; US20230222327A1

Abstract

本申请提供协同推理方法及通信装置，涉及通信技术领域，能够降低终端设备获取目标推理结果的时延。该方法包括：终端设备根据第一机器学习ML子模型，确定第一推理结果。其中，第一ML子模型为ML模型中的一部分。之后，终端设备发送第一推理结果。然后，终端设备接收目标推理结果。其中，目标推理结果是基于第一推理结果确定的ML模型的推理结果。

Description

协同推理方法及通信装置

技术领域

本申请涉及通信技术领域，尤其涉及一种协同推理方法及通信装置。

背景技术

机器学习(machine learning，ML)模型，是由训练数据和专家知识构成的数学模型或者信号模型，用于统计性地描述给定数据集的特征。在无线通信网络引入ML模型的情况下，存在的具体实现方式如下：

在终端设备存储ML模型的情况下，终端设备基于自身的数据和自身存储的ML模型，确定推理结果，再基于推理结果执行相关处理。例如，在远程驾驶场景下，终端设备作为车辆内置的车载模块、车载模组、车载部件、车载芯片或车载单元。终端设备基于得到的推理结果，调整车辆的行驶状况。

然而，终端设备不具备很高的计算能力，无法满足实际业务的时延需求。例如，远程驾驶业务的时延不能超过5ms，ML模型实现为亚力克斯网络(alexnet)模型的情况下，终端设备的计算能力至少为39G每秒浮点运算次数(floating point operations persecond，FLOPS)。而终端设备的计算能力无法达到上述要求，也就使得终端设备获得推理结果的时延加大。

综上，在无线通信网络引入ML推理的情况下，对于终端设备而言，无法解决“获得推理结果时延大”的问题。

发明内容

本申请实施例提供一种协同推理方法及通信装置，能够降低终端设备获取目标推理结果的时延。此外，还能提高终端设备数据的安全性。

为达到上述目的，本申请实施例采用如下技术方案：

第一方面，本申请实施例提供一种协同推理方法，该方法的执行主体可以是终端设备，也可以是应用于终端设备中的芯片。下面以执行主体是终端设备为例进行描述。该方法包括：终端设备根据第一机器学习ML子模型，确定第一推理结果。其中，第一ML子模型为ML模型中的一部分。之后，终端设备发送第一推理结果，然后，终端设备接收目标推理结果。其中，目标推理结果是基于第一推理结果确定的ML模型的推理结果。

如此，终端设备采用第一ML子模型执行部分推理运算，以得到第一推理结果。在终端设备发送第一推理结果之后，第一网络设备结合目标ML子模型对第一推理结果的全部信息进行运算，以得到目标推理结果，再提供给终端设备，使得终端设备无需执行完整的推理运算，降低了终端设备获取目标推理结果的时延。此外，终端设备向第一网络设备提供的是ML模型计算的中间结果而不是ML模型的输入数据，降低了“数据隐私暴露”的风险，提高了终端设备数据的安全性。

在一种可能的设计中，在终端设备确定第一推理结果之前接入第一网络设备的情况下，终端设备发送第一推理结果，包括：终端设备向第一网络设备发送第一推理结果的全部信息。终端设备接收目标推理结果，包括：终端设备接收来自第一网络设备的目标推理结果，其中，目标推理结果是基于第一推理结果的全部信息确定的ML模型的推理结果。也就是说，终端设备执行本地推理之前已接入第一网络设备，终端设备向第一网络设备提供第一推理结果，再从第一网络设备获取推理结果。

在一种可能的设计中，终端设备获取第一ML子模型的信息，包括：终端设备接收来自第一网络设备的第一ML子模型的信息，以使终端设备执行本地推理。

在一种可能的设计中，第一ML子模型的信息包括第一目标指示信息。本申请实施例协同推理方法还包括：终端设备接收来自第一网络设备的第一模型信息，其中，第一模型信息包括第一候选指示信息与第一切分位置之间的对应关系，第一候选指示信息和第一切分位置均至少为一个，一个第一候选指示信息指示对ML模型进行切分，且对ML模型进行切分的位置是与一个第一候选指示信息存在对应关系的第一切分位置。终端设备根据第一候选指示信息与第一切分位置之间的对应关系，以及第一目标指示信息，确定第一ML子模型。也就是说，第一网络设备向终端设备发送第一目标指示信息(如第一ML子模型对应的切分选项，以指示对ML模型的切分位置)，以使得终端设备获取第一ML子模型，从而节省传输资源。

在一种可能的设计中，本申请实施例协同推理方法还包括：终端设备向第一网络设备发送推理需求信息，其中，推理需求信息包括ML模型的标识和终端设备获取目标推理结果的时间信息，推理需求信息用于确定第一ML子模型的信息。这里，由于推理需求信息包括终端设备获取目标推理结果的时间信息，基于推理需求信息确定的第一ML子模型之后，终端设备基于第一ML子模型执行本地推理，能够满足终端设备获取目标推理结果的时延需求。

在一种可能的设计中，在终端设备发送第一推理结果之前接入第一网络设备，并在终端设备发送第一推理结果的过程中接入第二网络设备情况下，终端设备发送第一推理结果，包括：终端设备向第一网络设备发送第一推理结果的第一部分信息，其中，第一网络设备是终端设备接入第二网络设备之前接入的网络设备；终端设备向第二网络设备发送第一推理结果的第二部分信息。终端设备接收目标推理结果，包括：终端设备接收来自第二网络设备的目标推理结果，其中，目标推理结果是基于第一部分信息和第二部分信息确定的ML模型的推理结果。也就是说，在终端设备向第一网络设备发送第一推理结果的第一部分信息之后，终端设备接入第二网络设备(如终端设备发生切换，即从第一网络设备切换至第二网络设备)，终端设备不再与第一网络设备交互，从而向第二网络设备发送第一推理结果的第二部分信息。并且，终端设备从第二网络设备获取目标推理结果。

在一种可能的设计中，在终端设备发送第一推理结果之前接入第一网络设备，并在终端设备发送第一推理结果的过程中接入第二网络设备情况下，终端设备发送第一推理结果，包括：终端设备向第一网络设备发送第一推理结果的全部信息，其中，第一网络设备是终端设备接入第二网络设备之前接入的网络设备。终端设备接收目标推理结果，包括：终端设备接收来自第二网络设备的目标推理结果，其中，目标推理结果是基于第一推理结果的全部信息确定的ML模型的推理结果。也就是说，终端设备在向第一网络设备发送完整的第一推理结果之后，终端设备接入第二网络设备(如终端设备发生切换，即从第一网络设备切换至第二网络设备)，以从第二网络设备获取目标推理结果。

在一种可能的设计中，在终端设备发送第一推理结果之前接入第二网络设备的情况下，终端设备发送第一推理结果，包括：终端设备向第二网络设备发送第一推理结果的全部信息。终端设备接收目标推理结果，包括：终端设备接收来自第二网络设备的目标推理结果，其中，目标推理结果是基于第一推理结果的全部信息确定的ML模型的推理结果。也就是说，终端设备得到第一推理结果之后，终端设备已接入第二网络设备，终端设备向第二网络设备提供第一推理结果，再从第二网络设备获取推理结果。

在一种可能的设计中，在终端设备确定第一推理结果之前接入第一网络设备的情况下，本申请实施例协同推理方法还包括：终端设备接收来自第一网络设备的第一ML子模型的信息，以使终端设备执行本地推理。

在一种可能的设计中，第一ML子模型的信息包括第一目标指示信息。本申请实施例协同推理方法还包括：终端设备接收来自第一网络设备的第一模型信息，其中，第一模型信息包括第一候选指示信息与第一切分位置之间的对应关系，第一候选指示信息和第一切分位置均至少为一个。一个第一候选指示信息指示对ML模型进行切分，且对ML模型进行切分的位置是与一个第一候选指示信息存在对应关系的第一切分位置。终端设备根据第一候选指示信息与第一切分位置之间的对应关系，以及第一目标指示信息，确定第一ML子模型。也就是说，第一网络设备向终端设备发送第一目标指示信息(即第一ML子模型对应的切分选项，以指示对ML模型的切分位置)，以使得终端设备获取第一ML子模型，从而节省传输资源。

在一种可能的设计中，本申请实施例协同推理方法还包括：终端设备向第一网络设备发送推理需求信息，其中，推理需求信息包括终端设备获取目标推理结果的时间信息，推理需求信息用于确定第一ML子模型的信息。这里，由于推理需求信息包括终端设备获取目标推理结果的时间信息，基于推理需求信息确定的第一ML子模型之后，终端设备基于第一ML子模型执行本地推理，能够满足终端设备获取目标推理结果的时延需求。

在一种可能的设计中，在终端设备确定第一推理结果之前接入第二网络设备的情况下，终端设备发送第一推理结果，包括：终端设备向第二网络设备发送第一推理结果的全部信息。终端设备接收目标推理结果，包括：终端设备接收来自第二网络设备的目标推理结果，其中，目标推理结果是基于第一推理结果的全部信息确定的ML模型的推理结果。

在一种可能的设计中，在终端设备通过切换从第一网络设备接入第二网络设备的情况下，本申请实施例协同推理方法还包括：终端设备接收来自第一网络设备的第一ML子模型的信息，以使终端设备执行本地推理。

在一种可能的设计中，第一ML子模型的信息包括第一目标指示信息。本申请实施例协同推理方法还包括：终端设备接收来自第一网络设备的第一模型信息，其中，第一模型信息包括第一候选指示信息与第一切分位置之间的对应关系，第一候选指示信息和第一切分位置均至少为一个。一个第一候选指示信息指示对ML模型进行切分，且对ML模型进行切分的位置是与一个第一候选指示信息存在对应关系的第一切分位置。终端设备根据第一候选指示信息与第一切分位置之间的对应关系，以及第一目标指示信息，确定第一ML子模型。也就是说，第一网络设备向终端设备发送第一目标指示信息，以使得终端设备获取第一ML子模型，从而节省传输资源。

在一种可能的设计中，在终端设备通过无线资源控制RRC连接重建立或RRC连接恢复过程接入第二网络设备的情况下，本申请实施例协同推理方法还包括：终端设备接收来自第二网络设备的第一ML子模型的信息，以使终端设备执行本地推理。

在一种可能的设计中，第一ML子模型的信息包括第一目标指示信息。本申请实施例协同推理方法还包括：终端设备接收来自第二网络设备的第一模型信息，其中，第一模型信息包括第一候选指示信息与第一切分位置之间的对应关系，第一候选指示信息和第一切分位置均至少为一个。一个第一候选指示信息指示对ML模型进行切分，且对ML模型进行切分的位置是与一个第一候选指示信息存在对应关系的第一切分位置。终端设备根据第一候选指示信息与第一切分位置之间的对应关系，以及第一目标指示信息，确定第一ML子模型。也就是说，第二网络设备向终端设备发送第一目标指示信息，以使得终端设备获取第一ML子模型，从而节省传输资源。

在一种可能的设计中，第一ML子模型的输入数据为终端设备生成的数据。这里，终端设备基于自身生成的数据得到第一ML子模型的推理结果，进而向网络设备提供的是ML模型计算的中间结果而不是ML模型的输入数据，降低了“数据隐私暴露”的风险，提高了终端设备数据的安全性。

第二方面，本申请实施例提供一种协同推理方法，该方法的执行主体可以是第一网络设备，也可以是应用于第一网络设备中的芯片。下面以执行主体是第一网络设备为例进行描述。该方法包括：第一网络设备接收来自终端设备的第一推理信息。其中，第一推理信息包括第一推理结果的全部信息或部分信息，第一推理结果为第一机器学习ML子模型的推理结果，第一ML子模型为ML模型中的一部分。之后，第一网络设备向第二网络设备发送第二推理信息。其中，第二推理信息是基于第一推理信息确定的，第二推理信息用于确定ML模型的目标推理结果，或第二推理信息为目标推理结果。

如此，在第一网络设备接收终端设备的第一推理信息之后，向第二网络设备发送第二推理信息，以使第二网络设备确定目标推理结果，再提供给终端设备。或者，第二推理信息即为目标推理结果，以传输至第二网络设备。这里，第一推理信息是基于第一推理结果确定的。而第一推理结果是终端设备采用第一ML子模型执行部分推理运算得到的推理结果，使得终端设备无需执行完整的推理运算，降低了终端设备获取目标推理结果的时延。此外，终端设备向第一网络设备提供的是ML模型计算的中间结果而不是ML模型的输入数据，降低了“数据隐私暴露”的风险，提高了终端设备数据的安全性。

在一种可能的设计中，本申请实施例协同推理方法还包括：第一网络设备确定第一ML子模型的信息。之后，第一网络设备向终端设备发送第一ML子模型的信息，以使终端设备执行推理运算。

在一种可能的设计中，本申请实施例协同推理方法还包括：第一网络设备接收来自终端设备的推理需求信息。其中，推理需求信息包括终端设备获取目标推理结果的时间信息。第一网络设备确定第一ML子模型的信息，包括：第一网络设备根据推理需求信息确定第一ML子模型的信息。

也就是说，第一ML子模型的信息是根据推理需求信息确定的，以满足终端设备获取目标推理结果的时延需求。在第一ML子模型由第一网络设备确定的情况下，终端设备为第一网络设备提供推理需求信息。

在一种可能的设计中，第一ML子模型的信息包括第一目标指示信息。本申请实施例协同推理方法还包括：第一网络设备向终端设备发送第一模型信息。其中，第一模型信息包括第一候选指示信息与第一切分位置之间的对应关系。第一候选指示信息和第一切分位置均至少为一个，一个第一候选指示信息指示对ML模型进行切分，且对ML模型进行切分的位置是与一个第一候选指示信息存在对应关系的第一切分位置。第一模型信息和第一目标指示信息用于终端设备确定第一ML子模型，与传输第一ML子模型全信息相比，节省了传输资源。

在一种可能的设计中，第一推理信息包括第一推理结果的全部信息。本申请实施例协同推理方法还包括：第一网络设备根据第一推理结果的全部信息和目标ML子模型，确定目标推理结果。其中，第二推理信息为目标推理结果，目标ML子模型的输入数据对应第一ML子模型的输出数据。也就是说，第一网络设备基于第一推理结果执行推理运算，以得到目标推理结果，并传输至第二网络设备，从而降低终端设备和第二网络设备的运算量。

在一种可能的设计中，第一推理信息包括第一推理结果的全部信息。本申请实施例协同推理方法还包括：第一网络设备根据第一推理结果的全部信息和第二ML子模型，确定第二推理结果。其中，第二推理信息为第二推理结果，第二ML子模型的输入数据对应第一ML子模型的输出数据。也就是说，第一网络设备基于第一推理结果执行部分推理运算，以得到第二推理结果，并传输至第二网络设备，以使第二网络设备基于第二推理结果继续执行推理运算，从而降低终端设备的运算量。

在一种可能的设计中，本申请实施例协同推理方法还包括：第一网络设备向第二网络设备发送目标ML子模型的信息。其中，目标ML子模型的输入数据对应第二ML子模型的输出数据，目标ML子模型用于第二网络设备确定目标推理结果。

这里，在第一网络设备执行本地推理，得到第二推理结果，而未得到目标推理结果的情况下，第一网络设备还向第二网络设备提供目标ML子模型，以使第二网络设备基于目标ML子模型执行推理，得到目标推理结果。

在一种可能的设计中，第一推理信息与第二推理信息相同。本申请实施例协同推理方法还包括：第一网络设备向第二网络设备发送目标ML子模型的信息。其中，目标ML子模型的输入数据对应第一ML子模型的输出数据，目标ML子模型用于第二网络设备确定目标推理结果。

这里，在第一网络设备向第二网络设备转发第一推理信息的情况下，第一网络设备还向第二网络设备提供目标ML子模型的信息，以使第二网络设备基于目标ML子模型执行推理，得到目标推理结果。

在一种可能的设计中，目标ML子模型的信息包括第二目标指示信息。本申请实施例协同推理方法还包括：第一网络设备接收来自第二网络设备的第二模型信息。其中，第二模型信息包括第二候选指示信息与第二切分位置之间的对应关系，第二候选指示信息和第二切分位置均至少为一个，一个第二候选指示信息指示对ML模型进行切分，且对ML模型进行切分的位置是与一个第二候选指示信息存在对应关系的第二切分位置。第一网络设备根据第二候选指示信息与第二切分位置之间的对应关系，以及目标ML子模型，从第二候选指示信息中确定第二目标指示信息，与传输目标ML子模型全信息相比，节省了传输资源。

第三方面，本申请实施例提供一种协同推理方法，该方法的执行主体可以是第二网络设备，也可以是应用于第二网络设备中的芯片。下面以执行主体是第二网络设备为例进行描述。该方法包括：第二网络设备获取第三推理信息。其中，第三推理信息是基于第一推理结果的全部信息确定的，第一推理结果是基于第一机器学习ML子模型运算后的推理结果，第一ML子模型为ML模型中的一部分。之后，第二网络设备向终端设备发送目标推理结果。其中，目标推理结果是基于第三推理信息确定的ML模型的推理结果。

如此，由于第三推理信息是基于第一推理结果的全部信息确定的，而第一推理结果是终端设备采用第一ML子模型执行部分推理运算得到的推理结果。在第二网络设备获取第三推理信息之后，第二网络设备能够向终端设备发送目标推理结果。这里，目标推理结果是基于第三推理信息确定的，使得终端设备无需执行完整的推理运算，降低了终端设备获取目标推理结果的时延。此外，终端设备向第一网络设备提供的是ML模型计算的中间结果而不是ML模型的输入数据，降低了“数据隐私暴露”的风险，提高了终端设备数据的安全性。

在一种可能的设计中，在第二网络设备获取第三推理信息之前终端设备接入第二网络设备情况下，第三推理信息为第一推理结果的全部信息。第二网络设备获取第三推理信息，包括：第二网络设备接收来自终端设备的第一推理结果的全部信息。本申请实施例协同推理方法还包括：第二网络设备根据第一推理结果的全部信息和目标ML子模型，确定目标推理结果，其中，目标ML子模型的输入数据对应第一ML子模型的输出数据。也就是说，在终端设备接入第二网络设备的情况下，第二网络设备从终端设备获取第一推理结果的全部信息，以执行网络侧运算，得到目标推理结果，从而降低终端设备的运算量。

在一种可能的设计中，第二网络设备发送第一ML子模型的信息，包括：第二网络设备向终端设备发送第一ML子模型的信息，以使终端设备执行推理运算。

在一种可能的设计中，本申请实施例协同推理方法还包括：第二网络设备接收来自终端设备的推理需求信息，其中，推理需求信息包括终端设备获取目标推理结果的时间信息。第二网络设备根据推理需求信息确定第一ML子模型的信息。这里，由于推理需求信息包括终端设备获取目标推理结果的时间信息，基于推理需求信息确定的第一ML子模型之后，终端设备基于第一ML子模型执行本地推理，能够满足终端设备获取目标推理结果的时延需求。

在一种可能的设计中，在第二网络设备获取第三推理信息的过程中终端设备接入第二网络设备的情况下，第三推理信息为第一推理结果的全部信息。第二网络设备获取第三推理信息，包括：第二网络设备接收来自终端设备的第一推理结果的第一部分信息；第二网络设备接收来自第一网络设备的第一推理结果的第二部分信息。本申请实施例协同推理方法还包括：第二网络设备根据第一部分信息、第二部分信息和目标ML子模型，确定目标推理结果，其中，目标ML子模型的输入数据对应第一ML子模型的输出数据。

也就是说，在终端设备向第一网络设备发送第一推理结果的第一部分信息之后，终端设备接入第二网络设备，终端设备不再与第一网络设备交互，从而向第二网络设备发送第一推理结果的第二部分信息。并且，第二网络设备还能够从第一网络设备获取第一推理结果的第一部分信息，以执行网络侧推理，得到目标推理结果。

在一种可能的设计中，在第二网络设备获取第三推理信息之后终端设备接入第二网络设备的情况下，第三推理信息为第一推理结果的全部信息。第二网络设备获取第三推理信息，包括：第二网络设备接收来自第一网络设备的第一推理结果的全部信息。本申请实施例协同推理方法还包括：第二网络设备根据第一推理结果的全部信息和目标ML子模型，确定目标推理结果，其中，目标ML子模型的输入数据对应第一ML子模型的输出数据。

也就是说，终端设备在向第一网络设备发送完整的第一推理结果之后，终端设备接入第二网络设备，此种情况下，第二网络设备从第一网络设备处获取第一推理结果的全部信息，以执行本地推理，得到目标推理结果。

在一种可能的设计中，在第二网络设备获取第三推理信息之前终端设备由第一网络设备接入第二网络设备的情况下，第三推理信息为第一推理结果的全部信息。第二网络设备获取第三推理信息，包括：第二网络设备接收来自终端设备的第一推理结果的全部信息。本申请实施例协同推理方法还包括：第二网络设备根据第一推理结果的全部信息和目标ML子模型，确定目标推理结果，其中，目标ML子模型的输入数据对应第一ML子模型的输出数据。

也就是说，终端设备得到第一推理结果之后，终端设备已接入第二网络设备，终端设备向第二网络设备提供第一推理结果，以使第二网络设备执行网络侧推理，得到目标推理结果。

在一种可能的设计中，第三推理信息为第二推理结果，第二推理结果是基于第一推理结果的全部信息确定的第二ML子模型的推理结果，第二ML子模型的输入数据对应第一ML子模型的输出数据。第二网络设备获取第三推理信息，包括：第二网络设备接收来自第一网络设备的第二推理结果。本申请实施例协同推理方法还包括：第二网络设备根据第二推理结果和目标ML子模型，确定目标推理结果，其中，目标ML子模型的输入数据对应第二ML子模型的输出数据。

也就是说，在第一网络设备执行推理运算，得到第二推理结果的情况下，第二网络设备从第一网络设备处获取第二推理结果，在第二推理结果的基础上继续执行推理运算，以得到目标推理结果。

在一种可能的设计中，在第二网络设备获取目标ML子模型的信息之后，终端设备接入第二网络设备的情况下，第二网络设备获取目标ML子模型的信息，包括：第二网络设备接收来自第一网络设备的目标ML子模型的信息，以执行推理运算，得到目标推理结果。

在一种可能的设计中，目标ML子模型的信息包括第二目标指示信息。本申请实施例协同推理方法还包括：第二网络设备向第一网络设备发送第二模型信息，其中，第二模型信息包括第二候选指示信息与第二切分位置之间的对应关系；第二候选指示信息和第二切分位置均至少为一个，一个第二候选指示信息指示对ML模型进行切分，且对ML模型进行切分的位置是与一个第二候选指示信息存在对应关系的第二切分位置；第二模型信息用于第一网络设备确定第二目标指示信息。

也就是说，在第一网络设备通过第二目标指示信息为第二网络设备指示目标ML子模型的情况下，第二网络设备向第一网络设备提供第二模型信息，以使第一网络设备从第二模型信息中确定第二目标指示信息，从而节省传输资源。

在一种可能的设计中，第三推理信息为目标推理结果。第二网络设备获取第三推理信息，包括：第二网络设备接收来自第一网络设备的目标推理结果。

也就是说，在第一网络设备执行推理运算，得到推理结果的情况下，第二网络设备从第一网络设备处获取目标推理结果。

在一种可能的设计中，第二网络设备发送第一ML子模型的信息，包括：第二网络设备向终端设备发送第一ML子模型的信息；或者，第二网络设备向第一网络设备发送第一ML子模型的信息。

这里，在终端设备通过RRC连接恢复过程或RRC连接重建立过程接入第二网络设备的情况下，第二网络设备向终端设备发送第一ML子模型的信息，以使终端设备执行推理运算。在终端设备通过切换过程接入第二网络设备的情况下，第二网络设备向第一网络设备发送第一ML子模型的信息，以使第一网络设备向终端设备提供第一ML子模型的信息，从而使得终端设备执行推理运算。

在一种可能的设计中，本申请实施例协同推理方法还包括：第二网络设备接收来自第一网络设备的推理需求信息，其中，推理需求信息包括终端设备获取目标推理结果的时间信息。第二网络设备根据推理需求信息确定第一ML子模型的信息。这里，第二网络设备从第一网络设备获取推理需求信息，由于推理需求信息包括终端设备获取目标推理结果的时间信息，基于推理需求信息确定的第一ML子模型之后，终端设备基于第一ML子模型执行本地推理，能够满足终端设备获取目标推理结果的时延需求。

第四方面，本申请实施例提供一种协同推理方法，该方法的执行主体可以是终端设备，也可以是应用于终端设备中的芯片。下面以执行主体是终端设备为例进行描述。在接入网设备实现为分离式架构的情况下，该方法包括：终端设备根据第一机器学习ML子模型，确定第一推理结果。其中，第一ML子模型为ML模型中的一部分。之后，终端设备发送第一推理结果，然后，终端设备接收目标推理结果。其中，目标推理结果是基于第一推理结果确定的ML模型的推理结果。

如此，终端设备采用第一ML子模型执行部分推理运算，以得到第一推理结果。在终端设备发送第一推理结果之后，第一分布单元DU结合目标ML子模型对第一推理结果的全部信息进行运算，以得到目标推理结果，再提供给终端设备，使得终端设备无需执行完整的推理运算，降低了终端设备获取目标推理结果的时延。此外，终端设备向第一DU提供的是ML模型计算的中间结果而不是ML模型的输入数据，降低了“数据隐私暴露”的风险，提高了终端设备数据的安全性。

在一种可能的设计中，在终端设备确定所述第一推理结果之前接入第一DU的情况下，终端设备发送第一推理结果，包括：终端设备向第一DU发送第一推理结果的全部信息。终端设备接收目标推理结果，包括：终端设备接收来自第一DU的目标推理结果，其中，目标推理结果是基于第一推理结果的全部信息确定的ML模型的推理结果。也就是说，终端设备执行本地推理之前已接入第一DU，终端设备向第一DU提供第一推理结果，再从第一DU获取推理结果。

在一种可能的设计中，终端设备获取第一ML子模型的信息，包括：终端设备接收来自第一DU的第一ML子模型的信息，以使终端设备执行本地推理。

在一种可能的设计中，第一ML子模型的信息包括第一目标指示信息。本申请实施例协同推理方法还包括：终端设备接收来自第一DU的第一模型信息，其中，第一模型信息包括第一候选指示信息与第一切分位置之间的对应关系，第一候选指示信息和第一切分位置均至少为一个，一个第一候选指示信息指示对ML模型进行切分，且对ML模型进行切分的位置是与一个第一候选指示信息存在对应关系的第一切分位置。终端设备根据第一候选指示信息与第一切分位置之间的对应关系，以及第一目标指示信息，确定第一ML子模型。也就是说，第一DU向终端设备发送第一目标指示信息(即第一ML子模型对应的切分选项，以指示对ML模型的切分位置)，以使得终端设备获取第一ML子模型，从而节省传输资源。

在一种可能的设计中，本申请实施例协同推理方法还包括：终端设备向第一DU发送推理需求信息，其中，推理需求信息包括ML模型的标识和终端设备获取目标推理结果的时间信息，推理需求信息用于确定第一ML子模型的信息。这里，由于推理需求信息包括终端设备获取目标推理结果的时间信息，基于推理需求信息确定的第一ML子模型之后，终端设备基于第一ML子模型执行本地推理，能够满足终端设备获取目标推理结果的时延需求。

在一种可能的设计中，在终端设备发送第一推理结果之前接入第一DU，并在终端设备发送第一推理结果的过程中接入第二DU情况下，终端设备发送第一推理结果，包括：终端设备向第一DU发送第一推理结果的第一部分信息，其中，第一DU是终端设备接入第二DU之前接入的DU；终端设备向第二DU发送第一推理结果的第二部分信息。终端设备接收目标推理结果，包括：终端设备接收来自第二DU的目标推理结果，其中，目标推理结果是基于第一部分信息和第二部分信息确定的ML模型的推理结果。也就是说，在终端设备向第一DU发送第一推理结果的第一部分信息之后，终端设备接入第二DU(如终端设备发生切换，即从第一DU切换至第二DU)，终端设备不再与第一DU交互，从而向第二DU发送第一推理结果的第二部分信息。并且，终端设备从第二DU获取目标推理结果。

在一种可能的设计中，在终端设备发送第一推理结果之前接入第一DU，并在终端设备发送第一推理结果之后且接收目标推理结果之前接入第二DU的情况下，终端设备发送第一推理结果，包括：终端设备向第一DU发送第一推理结果的全部信息，其中，第一DU是终端设备接入第二DU之前接入的DU。终端设备接收目标推理结果，包括：终端设备接收来自第二DU的目标推理结果，其中，目标推理结果是基于第一推理结果的全部信息确定的ML模型的推理结果。也就是说，终端设备在向第一DU发送完整的第一推理结果之后，终端设备接入第二DU(如终端设备发生切换，即从第一DU切换至第二DU)，以从第二DU获取目标推理结果。

在一种可能的设计中，在终端设备发送第一推理结果之前接入第二DU的情况下，终端设备发送第一推理结果，包括：终端设备向第二DU发送第一推理结果的全部信息。终端设备接收目标推理结果，包括：终端设备接收来自第二DU的目标推理结果，其中，目标推理结果是基于第一推理结果的全部信息确定的ML模型的推理结果。也就是说，终端设备得到第一推理结果之后，终端设备已接入第二DU，终端设备向第二DU提供第一推理结果，再从第二DU获取推理结果。

在一种可能的设计中，在终端设备确定第一推理结果之前接入第一DU的情况下，本申请实施例协同推理方法还包括：终端设备接收来自第一DU的第一ML子模型的信息，以使终端设备执行本地推理。

在一种可能的设计中，第一ML子模型的信息包括第一目标指示信息。本申请实施例协同推理方法还包括：终端设备接收来自第一DU的第一模型信息，其中，第一模型信息包括第一候选指示信息与第一切分位置之间的对应关系，第一候选指示信息和第一切分位置均至少为一个。一个第一候选指示信息指示对ML模型进行切分，且对ML模型进行切分的位置是与一个第一候选指示信息存在对应关系的第一切分位置。终端设备根据第一候选指示信息与第一切分位置之间的对应关系，以及第一目标指示信息，确定第一ML子模型。也就是说，第一DU向终端设备发送第一目标指示信息(即第一ML子模型对应的切分选项，以指示对ML模型的切分位置)，以使得终端设备获取第一ML子模型，从而节省传输资源。

在一种可能的设计中，本申请实施例协同推理方法还包括：终端设备向第一DU发送推理需求信息，其中，推理需求信息包括终端设备获取目标推理结果的时间信息，推理需求信息用于确定第一ML子模型的信息。这里，由于推理需求信息包括终端设备获取目标推理结果的时间信息，基于推理需求信息确定的第一ML子模型之后，终端设备基于第一ML子模型执行本地推理，能够满足终端设备获取目标推理结果的时延需求。

在一种可能的设计中，在终端设备确定第一推理结果之前接入第二DU的情况下，终端设备发送第一推理结果，包括：终端设备向第二DU发送第一推理结果的全部信息。终端设备接收目标推理结果，包括：终端设备接收来自第二DU的目标推理结果，其中，目标推理结果是基于第一推理结果的全部信息确定的ML模型的推理结果。

在一种可能的设计中，本申请实施例协同推理方法还包括：终端设备接收来自第一DU的第一ML子模型的信息。这里，在终端设备通过切换从第一DU接入第二DU的情况下，终端设备通过第一DU获取第一ML子模型的信息。

在一种可能的设计中，第一ML子模型的输入数据为终端设备生成的数据。这里，终端设备基于自身生成的数据得到第一ML子模型的推理结果，进而向DU提供的是ML模型计算的中间结果而不是ML模型的输入数据，降低了“数据隐私暴露”的风险，提高了终端设备数据的安全性。

第五方面，本申请实施例提供一种协同推理方法，该方法的执行主体可以是第一DU，也可以是应用于第一DU中的芯片。下面以执行主体是第一DU为例进行描述。该方法包括：第一DU接收来自终端设备的第一推理信息。其中，第一推理信息包括第一推理结果的全部信息或部分信息，第一推理结果为第一机器学习ML子模型的推理结果，第一ML子模型为ML模型中的一部分。之后，第一DU向第二DU发送第二推理信息。其中，第二推理信息是基于第一推理信息确定的，第二推理信息用于确定ML模型的目标推理结果，或第二推理信息为目标推理结果。

如此，在第一DU接收终端设备的第一推理信息之后，向第二DU发送第二推理信息，以使第二DU确定目标推理结果，再提供给终端设备。或者，第二推理信息即为目标推理结果，以传输至第二DU。这里，第一推理信息是基于第一推理结果确定的。而第一推理结果是终端设备采用第一ML子模型执行部分推理运算得到的推理结果，使得终端设备无需执行完整的推理运算，降低了终端设备获取目标推理结果的时延。此外，终端设备向第一DU提供的是ML模型计算的中间结果而不是ML模型的输入数据，降低了“数据隐私暴露”的风险，提高了终端设备数据的安全性。

在一种可能的设计中，本申请实施例协同推理方法还包括：第一DU确定第一ML子模型的信息。之后，第一DU向终端设备发送第一ML子模型的信息，以使终端设备执行推理运算。

在一种可能的设计中，本申请实施例协同推理方法还包括：第一DU接收来自终端设备的推理需求信息。其中，推理需求信息包括终端设备获取目标推理结果的时间信息。在第一DU确定第一ML子模型的情况下，第一DU根据推理需求信息确定第一ML子模型。

也就是说，第一ML子模型是根据推理需求信息确定的，以满足终端设备获取目标推理结果的时延需求。在第一ML子模型由第一DU确定的情况下，终端设备为第一DU提供推理需求信息。

在一种可能的设计中，第一推理信息包括第一推理结果的全部信息。本申请实施例协同推理方法还包括：第一DU根据第一推理结果的全部信息和目标ML子模型，确定目标推理结果。其中，第二推理信息为目标推理结果，目标ML子模型的输入数据对应第一ML子模型的输出数据。也就是说，第一DU基于第一推理结果执行推理运算，以得到目标推理结果，并传输至第二DU，从而降低终端设备和第二DU的运算量。

在一种可能的设计中，第一推理信息包括第一推理结果的全部信息。本申请实施例协同推理方法还包括：第一DU根据第一推理结果的全部信息和第二ML子模型，确定第二推理结果。其中，第二推理信息为第二推理结果，第二ML子模型的输入数据对应第一ML子模型的输出数据。也就是说，第一DU基于第一推理结果执行部分推理运算，以得到第二推理结果，并传输至第二DU，以使第二DU基于第二推理结果继续执行推理运算，从而降低终端设备的运算量。

在一种可能的设计中，本申请实施例协同推理方法还包括：第一DU向第二DU发送目标ML子模型的信息。其中，目标ML子模型的输入数据对应第二ML子模型的输出数据，目标ML子模型用于第二DU确定目标推理结果。

这里，在第一DU执行本地推理，以得到第二推理结果，而未得到目标推理结果的情况下，第一DU还向第二DU提供目标ML子模型的信息，以使第二DU基于目标ML子模型执行推理，得到目标推理结果。

在一种可能的设计中，第一推理信息与第二推理信息相同。本申请实施例协同推理方法还包括：第一DU向第二DU发送目标ML子模型的信息。其中，目标ML子模型的输入数据对应第一ML子模型的输出数据，目标ML子模型用于第二DU确定目标推理结果。

这里，在第一DU向第二DU转发第一推理信息的情况下，第一DU还向第二DU提供目标ML子模型的信息，以使第二DU基于目标ML子模型执行推理，得到目标推理结果。

在一种可能的设计中，目标ML子模型的信息包括第二目标指示信息。本申请实施例协同推理方法还包括：第一DU接收来自第二DU的第二模型信息。其中，第二模型信息包括第二候选指示信息与第二切分位置之间的对应关系，第二候选指示信息和第二切分位置均至少为一个，一个第二候选指示信息指示对ML模型进行切分，且对ML模型进行切分的位置是与一个第二候选指示信息存在对应关系的第二切分位置。第一DU根据第二候选指示信息与第二切分位置之间的对应关系，以及目标ML子模型，从第二候选指示信息中确定第二目标指示信息，与传输目标ML子模型全信息相比，节省了传输资源。

第六方面，本申请实施例提供一种协同推理方法，该方法的执行主体可以是第二DU，也可以是应用于第二DU中的芯片。下面以执行主体是第二DU为例进行描述。该方法包括：第二DU获取第三推理信息。其中，第三推理信息是基于第一推理结果的全部信息确定的，第一推理结果是终端设备基于第一机器学习ML子模型运算后的推理结果，第一ML子模型为ML模型中的一部分。之后，第二DU向终端设备发送目标推理结果。其中，目标推理结果是基于第三推理信息确定的ML模型的推理结果。

如此，由于第三推理信息是基于第一推理结果的全部信息确定的，而第一推理结果是终端设备采用第一ML子模型执行部分推理运算得到的推理结果。在第二DU获取第三推理信息之后，第二DU能够向终端设备发送目标推理结果。这里，目标推理结果是基于第三推理信息确定的，使得终端设备无需执行完整的推理运算，降低了终端设备获取目标推理结果的时延。此外，终端设备向第一DU提供的是ML模型计算的中间结果而不是ML模型的输入数据，降低了“数据隐私暴露”的风险，提高了终端设备数据的安全性。

在一种可能的设计中，在第二DU获取第三推理信息之前终端设备接入第二DU情况下，第三推理信息为第一推理结果的全部信息。第二DU获取第三推理信息，包括：第二DU接收来自终端设备的第一推理结果的全部信息。本申请实施例协同推理方法还包括：第二DU根据第一推理结果的全部信息和目标ML子模型，确定目标推理结果，其中，目标ML子模型的输入数据对应第一ML子模型的输出数据。也就是说，在终端设备接入第二DU的情况下，第二DU从终端设备获取第一推理结果的全部信息，以执行运算，得到目标推理结果，从而降低终端设备的运算量。

在一种可能的设计中，第二DU发送第一ML子模型的信息，包括：第二DU向终端设备发送第一ML子模型的信息，以使终端设备执行推理运算。

在一种可能的设计中，本申请实施例协同推理方法还包括：第二DU接收来自终端设备的推理需求信息，其中，推理需求信息包括终端设备获取目标推理结果的时间信息。第二DU根据推理需求信息确定第一ML子模型的信息。

在一种可能的设计中，在第二DU获取第三推理信息的过程中终端设备接入第二DU的情况下，第三推理信息为第一推理结果的全部信息。第二DU获取第三推理信息，包括：第二DU接收来自终端设备的第一推理结果的第一部分信息；第二DU接收来自第一DU的第一推理结果的第二部分信息。本申请实施例协同推理方法还包括：第二DU根据第一部分信息、第二部分信息和目标ML子模型，确定目标推理结果，其中，目标ML子模型的输入数据对应第一ML子模型的输出数据。这里，由于推理需求信息包括终端设备获取目标推理结果的时间信息，基于推理需求信息确定的第一ML子模型之后，终端设备基于第一ML子模型执行本地推理，能够满足终端设备获取目标推理结果的时延需求。

在一种可能的设计中，在第二DU获取第三推理信息之后终端设备接入第二DU的情况下，第三推理信息为第一推理结果的全部信息。第二DU获取第三推理信息，包括：第二DU接收来自第一DU的第一推理结果的全部信息。本申请实施例协同推理方法还包括：第二DU根据第一推理结果的全部信息和目标ML子模型，确定目标推理结果，其中，目标ML子模型的输入数据对应第一ML子模型的输出数据。

也就是说，在终端设备向第一DU发送第一推理结果的第一部分信息之后，终端设备接入第二DU，终端设备不再与第一DU交互，从而向第二DU发送第一推理结果的第二部分信息。并且，第二DU还能够从第一DU获取第一推理结果的第一部分信息，以执行网络侧推理，得到目标推理结果。

在一种可能的设计中，在第二DU获取第三推理信息之前终端设备由第一DU接入第二DU的情况下，第三推理信息为第一推理结果的全部信息。第二DU获取第三推理信息，包括：第二DU接收来自终端设备的第一推理结果的全部信息。本申请实施例协同推理方法还包括：第二DU根据第一推理结果的全部信息和目标ML子模型，确定目标推理结果，其中，目标ML子模型的输入数据对应第一ML子模型的输出数据。

也就是说，终端设备得到第一推理结果之后，终端设备已接入第二DU，终端设备向第二DU提供第一推理结果，以使第二DU执行网络侧推理，得到目标推理结果。

在一种可能的设计中，第三推理信息为第二推理结果，第二推理结果是基于第一推理结果的全部信息确定的第二ML子模型的推理结果，第二ML子模型的输入数据对应第一ML子模型的输出数据。第二DU获取第三推理信息，包括：第二DU接收来自第一DU的第二推理结果。本申请实施例协同推理方法还包括：第二DU根据第二推理结果和目标ML子模型，确定目标推理结果，其中，目标ML子模型的输入数据对应第二ML子模型的输出数据。

也就是说，在第一DU执行推理运算，得到第二推理结果的情况下，第二DU从第一DU处获取第二推理结果，在第二推理结果的基础上继续执行推理运算，以得到目标推理结果。

在一种可能的设计中，在第二DU获取目标ML子模型的信息之后，终端设备接入第二DU的情况下，第二DU获取目标ML子模型的信息，包括：第二DU接收来自第一DU的目标ML子模型的信息，以执行推理运算，得到目标推理结果。

在一种可能的设计中，目标ML子模型的信息包括第二目标指示信息。本申请实施例协同推理方法还包括：第二DU向第一DU发送第二模型信息，其中，第二模型信息包括第二候选指示信息与第二切分位置之间的对应关系；第二候选指示信息和第二切分位置均至少为一个，一个第二候选指示信息指示对ML模型进行切分，且对ML模型进行切分的位置是与一个第二候选指示信息存在对应关系的第二切分位置；第二模型信息用于第一DU确定第二目标指示信息。

也就是说，在第一DU通过第二目标指示信息为第二DU指示目标ML子模型的情况下，第二DU向第一DU提供第二模型信息，以使第一DU从第二模型信息中确定第二目标指示信息，从而节省传输资源。

在一种可能的设计中，第三推理信息为目标推理结果。第二DU获取第三推理信息，包括：第二DU接收来自第一DU的目标推理结果。

也就是说，在第一DU执行推理运算，得到推理结果的情况下，第二DU从第一DU处获取目标推理结果。

在一种可能的设计中，第二DU发送第一ML子模型的信息，包括：第二DU向第一DU发送第一ML子模型的信息。

这里，在终端设备通过切换过程接入第二DU的情况下，第二DU向第一DU发送第一ML子模型的信息，以使第一DU向终端设备提供第一ML子模型的信息，从而使得终端设备执行推理运算。

在一种可能的设计中，本申请实施例协同推理方法还包括：第二DU接收来自第一DU的推理需求信息，其中，推理需求信息包括终端设备获取目标推理结果的时间信息。第二DU根据推理需求信息确定第一ML子模型的信息。这里，第二DU从第一DU获取推理需求信息，由于推理需求信息包括终端设备获取目标推理结果的时间信息，基于推理需求信息确定的第一ML子模型之后，终端设备基于第一ML子模型执行本地推理，能够满足终端设备获取目标推理结果的时延需求。

第七方面，本申请实施例提供一种通信装置，该通信装置包括：用于执行上述第一方面或第一方面任一种可能的设计、或第四方面或第四方面任一种可能的设计中各个步骤的单元。该通信装置可以为上述第一方面或第一方面任一种可能的设计中的终端设备，或者实现上述终端设备功能的芯片；或者，该通信装置可以为上述第四方面或第四方面任一种可能的设计中的终端设备，或者实现上述终端设备功能的芯片。所述通信装置包括实现上述方法相应的模块、单元、或手段(means)，该模块、单元、或手段可以通过硬件实现，软件实现，或者通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块或单元。

第八方面，本申请实施例提供了一种通信装置，包括：处理器和存储器；该存储器用于存储计算机指令，当该处理器执行该指令时，以使该通信装置执行上述第一方面或第一方面任一种可能的设计、或第四方面或第四方面任一种可能的设计所述的方法。该通信装置可以为上述第一方面或第一方面任一种可能的设计中的终端设备，或者实现上述终端设备功能的芯片；或者，该通信装置可以为上述第四方面或第四方面任一种可能的设计中的终端设备，或者实现上述终端设备功能的芯片。

第九方面，本申请实施例提供了一种通信装置，包括：处理器；所述处理器用于与存储器耦合，并读取存储器中的指令之后，根据所述指令执行如上述第一方面或第一方面任一种可能的设计、或第四方面或第四方面任一种可能的设计所述的方法。该通信装置可以为上述第一方面或第一方面任一种可能的设计中的终端设备，或者实现上述终端设备功能的芯片；或者，该通信装置可以为上述第四方面或第四方面任一种可能的设计中的终端设备，或者实现上述终端设备功能的芯片。

第十方面，本申请实施例提供一种芯片，包括逻辑电路和输入输出接口。其中，输入输出接口用于与芯片之外的模块通信，例如，输入输出接口输出第一推理信息，或输入输出接口输入目标推理结果。逻辑电路用于运行计算机程序或指令，以实现以上第一方面或第一方面任一种可能的设计、或第四方面或第四方面任一种可能的设计提供的协同推理方法。该芯片可以为实现上述第一方面或第一方面任一种可能的设计中的终端设备功能的芯片；或者，该芯片可以为实现上述第四方面或第四方面任一种可能的设计中的终端设备功能的芯片。

第十一方面，本申请实施例提供一种通信装置，该通信装置包括：用于执行上述第二方面或第二方面任一种可能的设计中各个步骤的单元。该通信装置可以为上述第二方面或第二方面任一种可能的设计中的第一网络设备，或者实现上述第一网络设备功能的芯片。所述通信装置包括实现上述方法相应的模块、单元、或手段(means)，该模块、单元、或手段可以通过硬件实现，软件实现，或者通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块或单元。

第十二方面，本申请实施例提供了一种通信装置，包括：处理器和存储器；该存储器用于存储计算机指令，当该处理器执行该指令时，以使该通信装置执行上述第二方面或第二方面任一种可能的设计所述的方法。该通信装置可以为上述第二方面或第二方面任一种可能的设计中的第一网络设备，或者实现上述第一网络设备功能的芯片。

第十三方面，本申请实施例提供了一种通信装置，包括：处理器；所述处理器用于与存储器耦合，并读取存储器中的指令之后，根据所述指令执行如上述第二方面或第二方面任一种可能的设计所述的方法。该通信装置可以为上述第二方面或第二方面任一种可能的设计中的第一网络设备，或者实现上述第一网络设备功能的芯片。

第十四方面，本申请实施例提供一种芯片，包括逻辑电路和输入输出接口。其中，输入输出接口用于与芯片之外的模块通信，例如，输入输出接口输入第一推理信息，或输入输出接口输出第二推理信息。逻辑电路用于运行计算机程序或指令，以实现以上第二方面或第二方面任一种可能的设计提供的协同推理方法。该芯片可以为实现上述第二方面或第二方面任一种可能的设计中的第一网络设备功能的芯片。

第十五方面，本申请实施例提供一种通信装置，该通信装置包括：用于执行上述第三方面或第三方面任一种可能的设计中各个步骤的单元。该通信装置可以为上述第三方面或第三方面任一种可能的设计中的第二网络设备，或者实现上述第二网络设备功能的芯片。所述通信装置包括实现上述方法相应的模块、单元、或手段(means)，该模块、单元、或手段可以通过硬件实现，软件实现，或者通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块或单元。

第十六方面，本申请实施例提供了一种通信装置，包括：处理器和存储器；该存储器用于存储计算机指令，当该处理器执行该指令时，以使该通信装置执行上述第三方面或第三方面任一种可能的设计所述的方法。该通信装置可以为上述第三方面或第三方面任一种可能的设计中的第二网络设备，或者实现上述第二网络设备功能的芯片。

第十七方面，本申请实施例提供了一种通信装置，包括：处理器；所述处理器用于与存储器耦合，并读取存储器中的指令之后，根据所述指令执行如上述第三方面或第三方面任一种可能的设计所述的方法。该通信装置可以为上述第三方面或第三方面任一种可能的设计中的第二网络设备，或者实现上述第二网络设备功能的芯片。

第十八方面，本申请实施例提供一种芯片，包括逻辑电路和输入输出接口。其中，输入输出接口用于与芯片之外的模块通信，例如，输入输出接口输出目标推理结果。逻辑电路用于运行计算机程序或指令，以实现以上第三方面或第三方面任一种可能的设计提供的协同推理方法。该芯片可以为实现上述第三方面或第三方面任一种可能的设计中的第二网络设备功能的芯片。

第十九方面，本申请实施例提供一种通信装置，该通信装置包括：用于执行上述第五方面或第五方面任一种可能的设计中各个步骤的单元。该通信装置可以为上述第五方面或第五方面任一种可能的设计中的第一DU，或者实现上述第一DU功能的芯片。所述通信装置包括实现上述方法相应的模块、单元、或手段(means)，该模块、单元、或手段可以通过硬件实现，软件实现，或者通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块或单元。

第二十方面，本申请实施例提供了一种通信装置，包括：处理器和存储器；该存储器用于存储计算机指令，当该处理器执行该指令时，以使该通信装置执行上述第五方面或第五方面任一种可能的设计所述的方法。该通信装置可以为上述第五方面或第五方面任一种可能的设计中的第一DU，或者实现上述第一DU功能的芯片。

第二十一方面，本申请实施例提供了一种通信装置，包括：处理器；所述处理器用于与存储器耦合，并读取存储器中的指令之后，根据所述指令执行如上述第五方面或第五方面任一种可能的设计所述的方法。该通信装置可以为上述第五方面或第五方面任一种可能的设计中的第一DU，或者实现上述第一DU功能的芯片。

第二十二方面，本申请实施例提供一种芯片，包括逻辑电路和输入输出接口。其中，输入输出接口用于与芯片之外的模块通信，例如，输入输出接口输入第一推理信息，或输入输出接口输出第二推理信息。逻辑电路用于运行计算机程序或指令，以实现以上第五方面或第五方面任一种可能的设计提供的协同推理方法。该芯片可以为实现上述第五方面或第五方面任一种可能的设计中的第一DU功能的芯片。

第二十三方面，本申请实施例提供一种通信装置，该通信装置包括：用于执行上述第六方面或第六方面任一种可能的设计中各个步骤的单元。该通信装置可以为上述第六方面或第六方面任一种可能的设计中的第二DU，或者实现上述第二DU功能的芯片。所述通信装置包括实现上述方法相应的模块、单元、或手段(means)，该模块、单元、或手段可以通过硬件实现，软件实现，或者通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块或单元。

第二十四方面，本申请实施例提供了一种通信装置，包括：处理器和存储器；该存储器用于存储计算机指令，当该处理器执行该指令时，以使该通信装置执行上述第六方面或第六方面任一种可能的设计所述的方法。该通信装置可以为上述第六方面或第六方面任一种可能的设计中的第二DU，或者实现上述第二DU功能的芯片。

第二十五方面，本申请实施例提供了一种通信装置，包括：处理器；所述处理器用于与存储器耦合，并读取存储器中的指令之后，根据所述指令执行如上述第六方面或第六方面任一种可能的设计所述的方法。该通信装置可以为上述第六方面或第六方面任一种可能的设计中的第二DU，或者实现上述第二DU功能的芯片。

第二十六方面，本申请实施例提供一种芯片，包括逻辑电路和输入输出接口。其中，输入输出接口用于与芯片之外的模块通信，例如，输入输出接口输出目标推理结果。逻辑电路用于运行计算机程序或指令，以实现以上第六方面或第六方面任一种可能的设计提供的协同推理方法。该芯片可以为实现上述第六方面或第六方面任一种可能的设计中的第二DU功能的芯片。

第二十七方面，本申请实施例提供一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机可以执行上述任一方面中任一项的协同推理方法。

第二十八方面，本申请实施例提供一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机可以执行上述任一方面中任一项的协同推理方法。

第二十九方面，本申请实施例提供一种电路系统，电路系统包括处理电路，处理电路被配置为执行如上述任一方面中任一项的协同推理方法。

第三十方面，本申请实施例提供一种协同推理系统，该系统包括第一网络设备和第二网络设备。

其中，第七方面至第三十方面中任一种设计所带来的技术效果可参考上文所提供的对应的方法中的有益效果，此处不再赘述。

附图说明

图1为本申请实施例提供的一种神经网络的示意图；

图2为本申请实施例提供的一种网络架构的示意图；

图3为本申请实施例提供的一种分布式网络架构的示意图；

图4为本申请实施例提供的第一种协同推理方法的流程示意图；

图5为本申请实施例提供的一种配置第一计算无线承载的流程示意图；

图6为本申请实施例提供的一种传输第一机器学习子模型的流程示意图；

图7a为本申请实施例提供的一种通信协议的分层示意图；

图7b为本申请实施例提供的再一种通信协议的分层示意图；

图8为本申请实施例提供的第二种协同推理方法的流程示意图；

图9a为本申请实施例提供的一种配置目标计算无线承载的流程示意图；

图9b为本申请实施例提供的一种传输目标机器学习子模型的流程示意图；

图9c为本申请实施例提供的又一种通信协议的分层示意图；

图9d为本申请实施例提供的又一种通信协议的分层示意图；

图10为本申请实施例提供的再一种配置目标计算无线承载的流程示意图；

图11为本申请实施例提供的第三种协同推理方法的流程示意图；

图12为本申请实施例提供的第四种协同推理方法的流程示意图；

图13为本申请实施例提供的再一种传输第一机器学习子模型的流程示意图；

图14为本申请实施例提供的又一种配置目标计算无线承载的流程示意图；

图15为本申请实施例提供的又一种通信协议的分层示意图；

图16为本申请实施例提供的一种通信装置的结构示意图；

图17为本申请实施例提供的再一种通信装置的结构示意图。

具体实施方式

本申请的说明书以及附图中的术语“第一”和“第二”等是用于区别不同的对象，或者用于区别对同一对象的不同处理，而不是用于描述对象的特定顺序。此外，本申请的描述中所提到的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括其他没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请实施例中，“多个”包括两个或两个以上。本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。在本申请实施例中，“传输”包括“发送”或“接收”。

首先，介绍本申请中所涉及的技术术语：

1、切换

在无线通信系统中，当终端设备从一个小区移动到另一个小区，或由于网络原因、业务负荷量调整、设备故障等原因，终端设备可能从源小区切换到目标小区，以保障终端设备与网络之间通信的连续性。上述过程即称为“切换”。这里，在切换之前，与终端设备进行通信的接入网设备，描述为源(source)接入网设备。在切换之后，与终端设备进行通信的接入网设备，描述为目标(target)接入网设备。在本申请实施例中，源接入网设备描述为“第一网络设备”，目标接入网设备描述为“第二网络设备”。

2、无线资源控制(radio resource control，RRC)非激活(inactive)态与RRC连接(connected)态

RRC非激活态和RRC连接态均用于描述终端设备的状态。

处于RRC非激活态的终端设备，空口的用户面承载已被挂起(suspend)，接入网设备与核心网设备之间的用户面承载和控制面承载仍被维护。终端设备存储接入层上下文，且支持小区重选。当终端设备发起呼叫或业务请求时，需要激活空口的用户面承载，并重用已有的接入网设备与核心网设备之间的用户面承载和控制面承载。

处于RRC连接态的终端设备，空口的控制面承载已被建立。

这里，将终端设备从RRC连接态转换为RRC非激活态的接入网设备，或保存终端设备的接入层上下文的接入网设备，描述为源接入网设备。RRC非激活态的终端设备重选到的接入网设备或终端设备新接入的接入网设备，描述为目标接入网设备。在本申请实施例中，源接入网设备描述为“第一网络设备”，目标接入网设备描述为“第二网络设备”。

3、RRC连接恢复(resume)

在终端设备处于RRC非激活态的情况下，当终端设备需要进行基于无线接入网络通知区域(radio access network based notification area，RNA)更新时，终端设备向第二网络设备发送RRC连接恢复请求(RRC resume request)消息。相应的，第二网络设备接收来自终端设备的RRC连接恢复请求消息。之后，第二网络设备向终端设备发送无线承载配置等信息，进而使得终端设备进行数据传输，上述过程即为“RRC连接恢复”。

4、RRC连接重建立(reestablishment)

RRC连接重建立的目的是在RRC连接出现异常时，处于RRC连接态的终端设备能够重新恢复RRC连接，以减小异常对通信的影响。当出现以下情况中的至少一种时，终端设备发起RRC连接重建立：第一，无线链路失败；第二，完整性校验失败；第三，RRC连接重配置失败。

5、ML模型

ML模型，也称为人工智能(artificial intelligence，AI)模型。ML模型是由训练数据和专家知识构成的数学模型或信号模型，用于统计性地描述给定数据集的特征。ML模型包括监督学习(supervised learning)模型、非监督学习(unsupervised learning)模型、强化学习(reinforcement learning)模型、神经网络(neural network)模型等。示例性的，图1示出了一个典型的神经网络模型。该神经网络模型包括多个神经元(neuron)，如图1中的圆圈所示。该神经网络模型包括1个输入层(如图1中斜线填充的圆圈所示)，3个隐含层(如图1中空白的圆圈所示)和1个输出层(如图1中竖线填充的圆圈所示)。其中，输入层接收外界输入的信号，隐含层与输出层对输入的信号在不同阶段进行加工处理，最终结果由输出层进行输出。该神经网络模型的每一层包括至少一个神经元。每个神经元接收来自其他神经元传递过来的输入信号，并且，这些输入信号通过带权重的连接进行传递，神经元先将接收到的总输入值与神经元的阈值进行比较，然后通过激活函数的处理从而产生该神经元的输出。另外，通过增加ML模型中隐含层的数据，和/或增加隐含层的神经元数目，能够提高ML模型的精度，或增加ML模型的容量。这里，仅以神经网络模型为例，对ML模型的结构进行说明。监督学习模型、非监督学习模型或强化学习模型等与图1所示的神经网络模型的结构相同，即均包括输入层、隐含层和输出层。这里，对于“监督学习模型、非监督学习模型或强化学习模型”而言，不同模型的相邻层之间的连接关系不同。另外，隐含层也可以描述为“中间层”。

通常，ML分为训练部分和推理(inference)部分。其中，训练部分是指，基于一定的训练数据集，从中学习得到执行特定任务的ML模型的过程。推理部分是指，ML模型对输入的数据进行计算，得到推理结果的过程。

在无线通信网络引入ML模型的情况下，相关技术中示出了如下两种可能的实现方式：

方式一、终端设备存储ML模型。终端设备基于自身的数据和自身存储的ML模型，确定推理结果。

方式二、网络设备存储ML模型。终端设备向网络设备发送输入数据。网络设备基于终端设备提供的输入数据和自身存储的ML模型，确定推理结果。网络设备向终端设备发送推理结果，从而使得终端设备得到推理结果。

然而，在上述方式一中，终端设备需具备很高的计算能力，以满足实际业务的时延需求。在上述方式二中，终端设备无需执行ML推理，对终端设备的计算能力要求较低，但是，终端设备向网络设备提供输入数据，而输入数据属于终端设备的数据，导致终端设备的数据隐私暴露。

综上，在无线通信网络引入ML推理的情况下，对于终端设备而言，无法解决“获得推理结果时延大”的问题。除此之外，部分相关技术中仍无法解决“数据隐私暴露”的问题。

有鉴于此，本申请实施例提供一种协同推理方法，本申请实施例协同推理方法适用于各种通信系统。本申请实施例提供的协同推理方法可以应用于长期演进(long termevolution，LTE)系统，或者第五代(fifth-generation，5G)通信网络，或者其他类似的网络中，或者未来的其它网络中。图2为可适用于本申请实施例协同推理方法的通信系统的架构示意图，该通信系统可以包括接入网设备21、与接入网设备21通信的终端设备20、与接入网设备21进行通信的核心网设备22。其中，终端设备20、接入网设备21和核心网设备22的数量均可以为一个或多个。图2中仅示出了一个终端设备20、两个接入网设备21和一个核心网设备22。图2仅为示意图，并不构成对本申请实施例协同推理方法的适用场景的限定。

其中，终端设备20，又称为用户设备(user equipment，UE)、移动台(mobilestation，MS)、移动终端(mobile terminal，MT)等，是一种向用户提供语音/数据连通性的设备，例如，具有无线连接功能的手持式设备或车载设备等。终端设备具体可以为：手机(mobile phone)、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(mobile internetdevice，MID)、可穿戴设备、虚拟现实(virtual reality，VR)设备、增强现实(augmentedreality，AR)设备、工业控制(industrial control)中的无线终端、无人驾驶(selfdriving)中的无线终端、远程手术(remote medical surgery)中的无线终端、智能电网(smart grid)中的无线终端、运输安全(transportation safety)中的无线终端、智慧城市(smart city)中的无线终端、或智慧家庭(smart home)中的无线终端，5G通信网络或5G之后的通信网络中的终端设备等，本申请实施例对此不作限定。

其中，核心网设备22是一种部署在核心网中为终端设备20提供服务的装置。在采用不同的无线接入技术的系统中，具备相类似无线通信功能的核心网设备的名称可能会有所不同。例如，当本申请实施例的协同推理方法应用于5G系统中，核心网设备可以例如但不限于接入和移动性管理功能(access and mobility management function，AMF)或网络数据分析功能(network data analytics function，NWDAF)。其中，AMF具有终端设备20的移动性管理、注册管理、连接管理、合法监听、支持传输终端设备20和会话管理功能(sessionmanagement function，SMF)之间的会话管理(session management，SM)信息、接入认证和接入授权等功能。NWDAF能够从各个网络功能(network function，NF)、应用功能(application function，AF)、运行管理和维护(operation administration andmaintenance，OAM)收集数据，进行网络功能分析和预测。仅为描述方便，本申请实施例中，上述可以为终端设备20提供服务的装置统称为核心网设备。核心网设备与接入网设备之间的接口为NG接口。

接入网设备21是无线通信网络中的设备，例如将终端设备20接入到无线通信网络的无线接入网(radio access network，RAN)节点。目前，一些RAN节点的举例为：下一代网络节点(next generation Node B，gNB)、连接下一代核心网的演进型节点B(nextgeneration evolutional Node B，ng-eNB)、传输接收点(transmission receptionpoint，TRP)、演进型节点B(evolved Node B，eNB)、无线网络控制器(radio networkcontroller，RNC)、节点B(Node B，NB)、基站控制器(base station controller，BSC)、基站收发台(base transceiver station，BTS)、家庭基站(例如，home evolved NodeB，或homeNode B，HNB)、基带单元(base band unit，BBU)，或无线保真(wireless fidelity，Wifi)接入点(access point，AP)等。

一种可能的方式中，本申请实施例中的接入网设备21包括集中单元(centralunit，CU)和分布式单元(distributed unit，DU)，如图3所示。其中，CU和DU的数量均可以是一个或多个。CU和DU可以理解为是对接入网设备21从逻辑功能角度的划分。其中，CU和DU在物理上可以是分离的，也可以部署在一起，本申请实施例对此不做具体限定。CU和DU之间可以通过接口相连，例如可以是F1接口。CU和DU可以根据无线网络的协议层划分。例如，无线资源控制(radio resource control，RRC)层、业务数据适配协议(service dataadaptation protocol，SDAP)层以及分组数据汇聚协议(packet data convergenceprotocol，PDCP)层的功能设置在CU中，而无线链路控制(radio link control，RLC)层，媒体接入控制(media access control，MAC)层，物理(physical，PHY)层等的功能设置在DU中。可以理解，对CU和DU处理功能按照这种协议层的划分仅仅是一种举例，也可以按照其他的方式进行划分，本申请实施例对此不做具体限定。

可选的，CU包括CU控制面(CU control plane，CU-CP)和CU用户面(CU userplane，CU-UP)。其中，一个CU包括一个CU-CP，以及一个或多个CU-UP。CU-CP和CU-UP可以理解为是对CU从逻辑功能的角度进行划分。CU-CP和CU-UP可以根据无线网络的协议层划分，例如，RRC层和PDCP层中的控制面设置在CU-CP中，PDCP层中的用户面设置在CU-UP中。此外，SDAP层的功能也可能设置在CU-UP中。CU-CP和CU-UP之间可以通过接口相连，例如可以是E1接口。CU-CP和DU之间可以通过F1的控制面接口(F1-C)进行连接，CU-UP和DU之间可以通过F1的用户面接口(F1-U)进行连接。进一步的，CU、DU或者CU-CP可以分别通过G1接口和数据分析管理(data analysis and management，DAM)单元进行连接。可选的，DAM单元可以分别作为CU、DU或者CU-CP的内部功能，此种情况下，G1接口为内部接口。

可以理解的，上述图2所示的通信系统，仅仅是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定。例如，该通信系统中还可以包括其他设备，如网络控制设备(图2未示出)。网络控制设备可以是运行管理和维护(operation administration and maintenance，OAM)系统，OAM系统也可以称为网管系统。网络控制设备可以对上述接入网设备和核心网设备进行管理。

本申请实施例描述的通信系统以及业务场景是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定。本领域普通技术人员可知，随着网络架构的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

下面对本申请实施例提供的协同推理方法进行具体阐述。

需要说明的是，本申请下述实施例中各个网元之间的消息名字或消息中各参数的名字等只是一个示例，具体实现中也可以是其他的名字，在此统一说明，以下不再赘述。

在本申请实施例中，终端设备向第一网络设备提供推理相关的信息(如第一推理结果)，并接收来自第一网络设备的目标推理结果。这里，在终端设备侧，用于执行推理的模型描述为“第一ML子模型”。在第一网络设备侧，用于执行推理的模型描述为“目标ML子模型”。ML模型包括第一ML子模型和目标ML子模型。这里，基于“第一ML子模型”得到的推理结果描述为“第一推理结果”。基于“目标ML子模型”得到的推理结果描述为“目标推理结果”。目标推理结果是ML模型的最终推理结果。其中，第一网络设备可以是上述接入网设备、核心网设备或网络控制设备。

本申请实施例提供第一种协同推理方法，该协同推理方法应用在机器学习过程中。参见图4，该协同推理方法包括如下步骤：

S400、终端设备和第一网络设备分别执行“配置第一计算无线承载(computingradio bearer，CRB)”的过程。

其中，第一CRB是一种专用无线承载，用于实现推理运算的相关信息的有序发送、加解密、重复性检测等。也就是说，终端设备与第一网络设备之间通过第一CRB来传输推理的相关信息。这里，推理运算的相关信息可以例如但不限于图4所示的信息：推理需求信息、第一ML子模型的信息、第一推理结果、目标推理结果。需要说明的是，此时的第一网络设备为接入网设备。下面，图5示出了一种可能的第一CRB的配置过程：

S400a、第一网络设备确定第一CRB的配置信息。

其中，第一CRB的配置信息可包括以下信息：

第一项、第一CRB的标识。其中，第一CRB的标识唯一标识一个CRB。

第二项、第一CRB的序列号尺寸。其中，第一CRB的序列号尺寸指示传输推理相关的信息(如第一ML子模型的信息、第一推理结果、目标推理结果)的承载的长度。第一CRB的序列号尺寸可以是12比特(bit)、18比特等，本申请实施例对第一CRB的序列号尺寸不作限定。

第三项、第一CRB的丢弃时间。其中，第一CRB的丢弃时间指示终端设备在一定时长之后丢弃或释放第一CRB。例如，第一CRB的丢弃时间为“5分钟”，即指示终端设备保持第一CRB的时长为5分钟。5分钟之后，终端设备丢弃或释放第一CRB。

第四项、第一CRB的头压缩信息。其中，第一CRB的头压缩信息指示第一CRB的压缩信息。例如，头压缩信息为最大上下文标识的数值。此种情况下，先根据最大上下文标识的数值压缩第一ML子模型的信息(或第一推理结果、或目标推理结果)，再将压缩结果通过第一CRB传输。

需要说明的是，在上述四项信息中，第一CRB的配置信息包括第一CRB的标识，以唯一标识一个CRB。可选的，第一CRB的配置信息包括第一CRB的序列号尺寸、第一CRB的丢弃时间和第一CRB的头压缩信息中的至少一项。

S400b、第一网络设备向终端设备发送第一CRB的配置信息。相应的，终端设备接收来自第一网络设备的第一CRB的配置信息。

S400c、终端设备根据第一CRB的配置信息，配置第一CRB。

如此，在终端设备获取第一CRB的配置信息的情况下，终端设备即可配置第一CRB，以通过第一CRB传输推理相关的信息。

需要说明的是，S400是可选的步骤。这里，在PDCP层关联CRB的情况下，本申请实施例协同推理方法包括S400，即执行“配置第一CRB”的过程。在PDCP层未关联CRB的情况下，本申请实施例协同推理方法不包括S400，即无需执行“配置第一CRB”的过程。

S401、终端设备向第一网络设备发送推理需求信息。相应的，第一网络设备接收来自终端设备的推理需求信息。

其中，推理需求信息包括终端设备获取目标推理结果的时间信息。这里，时间信息可以具体实现为“时间段信息”，如从第一时间点到第二时间点的时间段信息。第一时间点可以是终端设备执行S401的时间点。第二时间点可以是终端设备获取目标推理结果的最晚的时间点。或者，第一时间点记为t1。第二时间点记为t2。t1和t2可以是事先指定的任意时间点。也就是说，终端设备需在“上述时间信息指示的时间段”内获取到目标推理结果。推理需求信息还包括ML模型全信息或ML模型的标识。在“推理需求信息包括ML模型全信息”的情况下，第一网络设备无需存储ML模型，从而减少了第一网络设备对存储空间的要求。这里，ML模型全信息是指能完整描述ML模型的信息，例如，描述ML模型的源代码、ML模型的可执行程序代码、或ML模型经过部分或全部编译的代码等。

可选的，推理需求信息还包括以下信息中的至少一项：ML模型的输入尺寸(size)和终端设备的计算能力信息。其中，ML模型的输入尺寸表示用于ML推理的输入数据的数据量大小，例如，可以用字节数表示。终端设备的计算能力信息也可以描述为终端设备的算力，可以理解为用于指示或者评估终端设备处理数据的速度的能力，例如是终端设备计算哈希函数时的数据输出速度，具体可以用FLOPS来表示。终端设备的计算能力与处理数据的速度呈正相关，例如计算能力越大，处理数据的速度就越快，那么，通常，终端设备进行ML模型推理的速度也越快。终端设备的计算能力与终端设备自身的硬件配置性能、操作系统运行的流畅性等因素有关。

S402、第一网络设备根据推理需求信息确定第一ML子模型。

示例性的，在推理需求信息包括ML模型的标识的情况下，第一网络设备即可根据ML模型的标识确定相应的ML模型，第一网络设备也就能够确定对哪一模型进行切分。在推理需求信息包括ML模型全信息的情况下，第一网络设备也就能够对推理需求信息所携带的ML模型进行切分。

在ML模型设置切分选项的情况下，第一网络设备根据推理需求信息确定第一ML子模型对应的切分选项。

下面，先对ML模型的切分选项进行介绍：切分选项是指ML模型中相邻层之间定义的选项，用于切分ML模型。一个切分选项对应ML模型的一个切分位置。示例性的，参见图1，图1示出了一种ML模型的结构示意图。在图1中，ML模型的切分选项采用数字来表示，如0，1，2，3等。在图1中，切分选项“0”表示ML模型的输入层和隐含层第一层之间的选项，切分选项“0”对应的切分位置如图1中输入层与隐含层第一层之间的虚线所示。若第一ML子模型对应的切分选项为“0”，则表示第一ML子模型包括ML模型的输入层，终端设备需要对输入数据进行输入层的处理。切分选项“1”表示ML模型的隐含层的第一层和隐含层的第二层之间的选项，切分选项“1”对应的切分位置如图1中隐含层第一层与隐含层第二层之间的虚线所示。若第一ML子模型对应的切分选项为“1”，则表示第一ML子模型包括ML模型的输入层和隐含层第一层，终端设备需要对输入数据进行输入层和隐含层的第一层的处理。切分选项“2”表示ML模型的隐含层的第二层和隐含层第三层之间的选项，切分选项“2”对应的切分位置如图1中隐含层第二层和隐含层第三层之间的虚线所示。若第一ML子模型对应的切分选项为“2”，则表示第一ML子模型包括ML模型的输入层、隐含层的第一层和隐含层的第二层，终端设备需要对输入数据进行输入层、隐含层的第一层和隐含层的第二层的处理。切分选项“3”表示ML模型的隐含层的第三层和输出层之间的选项，切分选项“3”对应的切分位置如图1中隐含层第三层和输出层之间的虚线所示。若第一ML子模型对应的切分选项为“3”，则表示第一ML子模型包括ML模型的输入层、隐含层的第一层、隐含层的第二层和隐含层第三层，终端设备需要对输入数据进行输入层、隐含层的第一层、隐含层的第二层和隐含层第三层的处理。若ML模型中还存在其他切分选项，其他切分选项所表示的含义可以此类推。

然后，仍以图1所示的ML模型为例，在第一网络设备选择切分选项“2”的情况下，第一ML子模型包括ML模型的输入层、隐含层第一层和隐含层第二层，且不包括ML模型的隐含层第三层和输出层。这里，第一网络设备进行计算，以得到如下信息：

第一项、终端设备执行本地推理的时长。例如，第一网络设备根据终端设备的计算能力确定终端设备执行本地推理的时长。

第二项、终端设备发送第一推理结果的时长。例如，第一网络设备根据第一推理结果的尺寸和终端设备的上行带宽，确定“终端设备发送第一推理结果的时长”。

第三项、第一网络设备执行本地推理的时长。例如，第一网络设备根据自身的计算能力确定“第一网络设备执行本地推理的时长”。

第四项、第一网络设备发送目标推理结果的时长。例如，第一网络设备根据目标推理结果和终端设备的下行带宽，确定“第一网络设备发送目标推理结果的时长”。

若上述时长的总和未超出推理需求信息中的时间信息指示的时间段，则第一网络设备将切分选项“2”作为第一ML子模型对应的切分选项。如果超出，则第一网络设备计算切分选项“1”是否超出推理需求信息中的时间信息指示的时间段。第一网络设备重复执行上述过程，直至第一网络设备确定第一ML子模型对应的切分选项，或第一网络设备遍历ML模型的切分选项。这里，第一网络设备确定了切分选项，也就相应确定了第一ML子模型。

另外，上述第一项信息(即“终端设备执行本地推理的时长”)和第二项信息(即“终端设备发送第一推理结果的时长”)也可以由终端设备计算得到，由终端设备向第一网络设备上报。此种情况下，第一网络设备确定第三项信息(即“第一网络设备执行本地推理的时长”)和第四项信息(即“第一网络设备发送目标推理结果的时长”)即可，从而使得第一网络设备确定第一ML子模型对应的切分选项，具体参见上一段的相关说明，此处不再赘述。关于“终端设备确定上述第一项信息”和“终端设备确定上述第二项信息”的具体说明如下：

以“终端设备确定上述第一项信息”为例，在终端设备获知“ML模型各层运算量”的情况下，终端设备结合自身的计算能力和“ML模型各层运算量”，确定终端设备执行本地推理的时长。例如，以图1所示的ML模型为例，在终端设备获取“ML模型的输入层的运算量”的情况下，终端设备计算“终端设备执行ML模型的输入层推理的时长”。在终端设备获取“ML模型的输入层的运算量和隐含层第一层的运算量”的情况下，终端设备计算“终端设备执行ML模型的输入层和隐含层第一层推理的时长”。在终端设备获取“ML模型的输入层的运算量、隐含层第一层和隐含层第二层的运算量”的情况下，终端设备计算“终端设备执行ML模型的输入层、隐含层第一层和隐含层第二层推理的时长”。也就是说，在终端设备遍历ML模型的切分选项的情况下，第一项信息也就包括“终端设备在ML模型的不同切分选项下执行本地推理的时长。

再以“终端设备确定上述第二项信息”为例，在终端设备获知“ML模型各层推理结果的尺寸”的情况下，终端设备结合上行带宽和“ML模型各层推理结果的尺寸”，确定“终端设备发送第一推理结果的时长”。例如，以图1所示的ML模型为例，在终端设备获取“ML模型的输入层的推理结果的尺寸”的情况下，终端设备计算“终端设备发送ML模型的输入层推理结果的时长”。在终端设备获取“ML模型的隐含层第一层的推理结果的尺寸”的情况下，终端设备计算“终端设备发送ML模型的隐含层第一层推理结果的时长”。在终端设备获取“ML模型的隐含层第二层的推理结果的尺寸”的情况下，终端设备计算“终端设备发送ML模型的隐含层第二层推理结果的时长”。也就是说，在终端设备遍历ML模型的切分选项的情况下，第二项信息也就包括“终端设备在ML模型的不同切分选项下发送第一推理结果的时长。进而，在第一网络设备选择第一ML子模型对应的切分选项的情况下，即可获知“终端设备发送第一推理结果的时长”。

这里，上述第一项信息和第二项信息可以与推理需求信息承载于同一消息，也可以承载于不同消息，本申请实施例对此不作限定。

需要说明的是，第一ML子模型是ML模型的一部分。第一ML子模型至少包括ML模型的输入层。也就是说，终端设备至少执行输入层的处理，以避免向第一网络设备提供输入数据，防止数据隐私暴露。这里，以图1所示的ML模型为例，第一ML子模型对应的切分选项的最小取值为“0”。另外，第一网络设备对ML模型进行切分，在第一网络设备确定第一ML子模型之后，也就相应确定了目标ML子模型，即第一ML子模型的输出数据对应目标ML子模型的输入数据。

在ML模型未设置切分选项的情况下，第一网络设备自主确定ML模型的切分位置，对ML模型进行切分，以得到两个ML子模型。这里，将终端设备用于推理的模型记为“ML子模型a”，将第一网络设备用于推理的模型记为“ML子模型b”。之后，第一网络设备确定上述四项信息(即终端设备执行本地推理的时长、终端设备发送第一推理结果的时长、第一网络设备执行本地推理的时长、第一网络设备发送目标推理结果的时长)。若上述时长的总和未超出推理需求信息中的时间信息指示的时间段，则第一网络设备将“ML子模型a”作为第一ML子模型。相应的，“ML子模型b”作为目标ML子模型。如果超出，则第一网络设备重新确定切分位置，重复执行上述过程，直至第一网络设备确定第一ML子模型，或第一网络设备重复确定切分位置的次数满足预设值。

S403、第一网络设备向终端设备发送第一ML子模型的信息。相应的，终端设备接收来自第一网络设备的第一ML子模型的信息。

其中，第一ML子模型用于终端设备执行推理运算，以得到第一推理结果。例如，第一网络设备选择切分选项“1”，此种情况下，第一ML子模型包括ML模型的输入层和隐含层第一层，且不包括ML模型的隐含层第二层、隐含层第三层和输出层。

这里，参见图6，通过两种可能的实现方式对S403的具体实现进行说明：

作为第一种可能的实现方式，在第一网络设备与终端设备的ML模型同步的情况下，第一网络设备通过指示信息为终端设备指示第一ML子模型，具体如图6中“第一种可能的实现方式”框图所示。这里，“第一网络设备与终端设备的ML模型同步”是指，ML模型的切分选项所表征的含义适用于第一网络设备和终端设备。换言之，对于第一网络设备和终端设备而言，两者对ML模型的切分选项所表征的含义有相同的理解。S403具体实现为S403b。图6所示步骤的具体说明如下：

S403a、第一网络设备向终端设备发送模型信息1。相应的，终端设备接收来自第一网络设备的模型信息1。

其中，模型信息1指示第一候选指示信息与第一切分位置之间的对应关系。第一切分位置是指在对ML模型进行切分时的切分位置。

示例性的，ML模型的切分方式为“按层切分”，且定义了不同切分选项的含义，具体如图1所示。这里，一个第一候选指示信息实现为一个切分选项，不同的第一候选指示信息实现为不同的切分选项。第一切分位置即为切分选项对应的切分位置。若第一目标指示信息实现为切分选项“1”，则表示在ML模型的隐含层第一层和隐含层第二层之间进行切分。如此，第一ML子模型包括ML模型的输入层和隐含层第一层，目标ML子模型包括ML模型的隐含层第二层、隐含层第三层和输出层。

可选的，在单个ML模型的场景下，模型信息1可以不携带ML模型的标识。在多个ML模型的场景下，模型信息1携带ML模型的标识，以使终端设备根据ML模型的标识确定相应的模型。示例性的，在多个ML模型的场景下，终端设备和第一网络设备之间预定义ML模型的标识，一个ML模型的标识唯一标识一个ML模型。例如，ML模型的标识1代表亚历克斯网络(alexnet)模型，ML模型的标识2代表16层的视觉几何组(visual geometry group16，VGG16)模型，ML模型的标识3代表ResNet-152模型。又例如，ML模型的标识为AlexNet，VGG16，ResNet-152等。

需要说明的是，S403a是可选步骤。例如，若终端设备和第一网络设备预先从其他网络设备获取模型信息1，则无需执行S403a。这里，第一网络设备和终端设备也可以从网络控制设备获取模型信息1，以实现第一网络设备和终端设备之间的模型同步。其中，网络控制设备可以是OAM设备。

S403b、第一网络设备向终端设备发送第一目标指示信息。相应的，终端设备接收来自第一网络设备的第一目标指示信息。

其中，第一目标指示信息指示ML模型的切分位置。这里，第一目标指示信息包括第一ML子模型对应的切分选项，通过切分选项来指示ML模型的切分位置，以使终端设备通过切分ML模型得到第一ML子模型。可选的，在单个ML模型的场景下，第一目标指示信息可以不携带第一ML子模型的标识。在多个ML模型的场景下，第一目标指示信息携带第一ML子模型的标识。这里，第一ML子模型的标识和ML模型的标识相同。

示例性的，仍以图1所示的场景为例，在第一网络设备确定切分选项为“1”的情况下，第一目标指示信息包括切分选项为“1”。相应的，第一ML子模型包括ML模型的输入层和隐含层第一层，终端设备需要对输入数据进行输入层和隐含层第一层的处理。

需要说明的是，当第一网络设备需要执行S403a和S403b时，第一网络设备可以先执行S403a，再执行S403b，或者，第一网络设备还可以同时执行S403a和S403b。另外，模型信息1和第一目标指示信息也可以承载于同一消息中，即第一网络设备向终端设备发送“第一ML子模型对应的切分选项”，以及“第一ML子模型对应的切分选项”所表征的含义，本申请实施例对此不作限定。

S403c、终端设备根据模型信息1和第一目标指示信息确定第一ML子模型。

示例性的，在多个ML模型的场景下，终端设备获取模型信息1的情况下，即可获知ML模型的标识对应的ML模型的切分方式。在模型信息1所指示的“按层切分”的这一切分方式下，终端设备再结合第一目标指示信息即可获知对哪一模型进行切分，以及待切分的ML模型中“哪些层属于第一ML子模型”，进而得到第一ML子模型。例如，在第一目标指示信息包括切分选项为“1”的情况下，终端设备对ML模型进行切分，即在隐含层第一层和隐含层第二层之间进行切分，以得到第一ML子模型。

如此，在第一网络设备与终端设备之间的ML模型同步的情况下，第一网络设备即可向终端设备发送第一目标指示信息(即第一ML子模型对应的切分选项，以指示对ML模型的切分位置)，以使得终端设备获取第一ML子模型，从而节省传输资源。

作为第二种可能的实现方式，在推理需求信息包括ML模型全信息的情况下，参见图6中“第二种可能的实现方式”框图，S403具体实现为S403a：

S403a、第一网络设备向终端设备发送第一ML子模型全信息。相应的，终端设备接收来自第一网络设备的第一ML子模型全信息。

具体地，第一ML子模型全信息是指能完整描述第一ML子模型的信息，例如，描述第一ML子模型的源代码、第一ML子模型的可执行程序代码、或第一ML子模型经过部分或全部编译的代码等。如此，即使第一网络设备与终端设备之间未进行模型同步，终端设备也能够获取第一ML子模型。

S404、终端设备根据第一ML子模型，计算第一推理结果。

其中，第一ML子模型至少包括ML模型的输入层。示例性的，以“第一ML子模型包括ML模型的输入层和隐含层第一层”为例，第一推理结果即为隐含层第一层的推理结果。

这里，终端设备将数据输入第一ML子模型，采用第一ML子模型对输入数据进行计算，以得到第一推理结果。其中，输入数据是终端设备生成的第一ML子模型的输入数据，即输入数据是终端设备生成的，并作为第一ML子模型的输入数据。示例性地，在终端设备发射功率自优化场景下，终端设备可以对自身的发射功率通过功率ML模型进行优化。具体地，终端设备获取第一功率ML子模型，并将当前时刻或者此前某个(些)时刻的发射功率作为第一功率ML子模型的输入数据。终端设备采用第一功率ML子模型对这个(些)发射功率值进行推理计算，以得到第一推理结果。由此可见，终端设备无需向网络设备提供ML模型的输入数据，降低了“数据隐私暴露”的风险。

S405、终端设备向第一网络设备发送第一推理结果。相应的，第一网络设备接收来自终端设备的第一推理结果。

这里，第一推理结果是指完整的第一推理结果。示例性的，仍以图1中“第一ML子模型包括ML模型的输入层和隐含层第一层”为例，第一推理结果包括隐含层第一层的推理结果。

S406、第一网络设备根据第一推理结果和目标ML子模型，计算目标推理结果。

其中，目标ML子模型至少包括ML模型的输出层。这里，目标ML子模型的输入数据和第一ML子模型的输出数据对应。例如，以图1中“第一ML子模型包括ML模型的输入层和隐含层第一层”为例，目标ML子模型包括ML模型的隐含层第二层、隐含层第三层和输出层。

其中，目标推理结果为ML模型的最终推理结果。

示例性的，第一网络设备将第一推理结果输入至目标ML子模型，使用目标ML子模型执行隐含层第二层、隐含层第三层和输出层的处理，以得到目标推理结果。

以上述终端发射功率自优化场景为例，第一网络设备将终端设备采用第一功率ML子模型推理得到的第一推理结果作为目标功率ML子模型的输入数据，并采用目标功率ML子模型进行推理计算，以得到目标推理结果，即优化后的终端设备发射功率。

S407、第一网络设备向终端设备发送目标推理结果。相应的，终端设备接收来自第一网络设备的目标推理结果。

以上述终端设备发射功率自优化场景为例，终端设备收到第一网络设备发送的优化后的终端设备发射功率后，可以使用该优化后的发射功率进行数据发送。

需要说明的是，上述终端设备与第一网络设备之间的交互步骤(如S401、S403、S405和S407)，终端设备和第一网络设备可以基于现有的协议栈发送推理运算的相关信息。例如，推理运算的相关信息承载于RRC消息或非接入层(non-access stratum，NAS)消息。终端设备和第一网络设备也可以基于新的协议栈发送推理运算的相关信息。

例如，在第一网络设备实现为接入网设备的情况下，终端设备与接入网设备之间可采用专用协议(如数据分析协议(data analytics protocol，DAP))发送推理运算的相关信息，以实现相关信息的分割、排序、完整性保护、加解密等功能。这里，PDCP层关联一种专用无线承载(如CRB)，以实现推理运算的相关信息的有序发送、加解密、重复性检测等。参见图7a，图7a示出了终端设备与接入网设备之间的协议栈。该协议栈用于终端设备与接入网设备之间传输推理运算的相关信息。该协议栈主要包括DAP层、PDCP层、RLC层、MAC层和PHY层。其中，DAP层、PDCP层、RLC层、MAC层和PHY层均属于接入(access stratum，AS)层。这里，推理运算的相关信息可以例如但不限于如下信息：推理需求信息、第一ML子模型的信息、第一推理结果、目标推理结果。

再如，在第一网络设备实现为核心网设备的情况下，终端设备与核心网设备之间可采用专用协议(如高层数据分析协议(high data analytics protocol，HDAP))发送相关信息，以实现相关信息的分割、排序、完整性保护、加解密等功能。参见图7b，图7b示出了终端设备与核心网设备之间的协议栈。类似的，该协议栈用于终端设备与核心网设备之间传输推理运算的相关信息。该协议栈主要包括HDAP层。需要说明的是，图7b省略了接入网设备与核心网设备交互的协议栈。终端设备与接入网设备交互的协议栈的介绍可以参见图7a的相关说明，此处不再赘述。

另外，在本申请实施例提供的第一种协同推理方法中，S400可以在S401至S407中任意一个步骤之前执行，也可以与S401至S407中任意一个步骤同时执行，本申请实施例对此不作限定。在S400与某一个步骤同时执行时，“第一CRB的配置信息”与该步骤传输的信息可以承载于同一消息，也可以承载于不同的消息，本申请实施例对此不作限定。例如，以S400和S403同时执行为例，“第一CRB的配置信息”与“第一ML子模型”可以承载于同一消息，也可以承载于不同消息。

本申请实施例提供的协同推理方法，终端设备采用第一ML子模型执行部分推理运算，以得到第一推理结果。在终端设备发送第一推理结果之后，第一网络设备结合目标ML子模型对第一推理结果的全部信息进行运算，以得到目标推理结果，再提供给终端设备，使得终端设备无需执行完整的推理运算，降低了终端设备获取目标推理结果的时延。进一步地，终端设备向网络设备提供的是ML模型计算的中间结果而不是ML模型的输入数据，降低了“数据隐私暴露”的风险，提高了终端设备数据的安全性。

在图4所示的通信过程中，若终端设备发生切换、RRC连接恢复或RRC连接重建立从而连接到第二网络设备，则终端设备接收来自第二网络设备的目标推理结果。这里，以终端设备发生“切换”为例，在第一网络设备获取到终端设备提供的信息(如完整的第一推理结果)之后，第一网络设备确定需要对终端设备发起切换，则第一网络设备不执行推理运算。或者，在第一网络设备获取到终端设备提供的信息之后，第一网络设备确定需要对终端设备发起切换，且第二网络设备的计算能力优于第一网络设备的计算能力，则第一网络设备可不执行推理运算，由第二网络设备执行推理运算。再以终端设备发生“RRC连接恢复”或“RRC连接重建立”为例，在第一网络设备获取到终端设备提供的信息(如完整的第一推理结果)之后，若第一网络设备接收来自第二网络设备的检索终端设备上下文请求(retrieveUE context request)消息，则第一网络设备不执行推理运算，由第二网络设备执行推理运算。这里，若第一网络设备接收来自第二网络设备的检索终端设备上下文请求消息，则表明终端设备接入第二网络设备。在第一网络设备不执行推理运算的场景下，同样地，ML模型包括第一ML子模型和目标ML子模型。在终端设备侧，用于执行推理的模型描述为“第一ML子模型”，得到的推理结果描述为“第一推理结果”。在第二网络设备侧，用于执行推理的模型描述为“目标ML子模型”，得到的推理结果描述为“目标推理结果”。其中，第二网络设备可以是上述接入网设备、核心网设备或网络控制设备。可选的，在通过CRB传输推理相关信息的情况下，终端设备与第一网络设备之间的CRB描述为“第一CRB”，终端设备与第二网络设备之间的CRB描述为“目标CRB”。

下面，以终端设备发生切换(即终端设备由第一网络设备切换至第二网络设备，此时，第一网络设备为第一接入网设备，第二网络设备为第二接入网设备)为例，对本申请实施例提供的第二种协同推理方法进行介绍，该协同推理方法应用在机器学习过程中。参见图8，该协同推理方法可包括S400至S404，以及如下步骤：

S800、终端设备和第二网络设备分别执行“配置目标CRB”的过程。

其中，目标CRB也是一种专用无线承载，用于实现推理运算的相关信息的有序发送、加解密、重复性检测等。也就是说，终端设备与第二网络设备之间通过目标CRB来传输推理的相关信息。这里，推理运算的相关信息可以例如但不限于图8所示的信息：第一推理结果的第二部分信息、第一推理结果的全部信息、目标推理结果。下面，图9a示出了可能的一种目标CRB的配置过程：

可选的，若终端设备与第一网络设备之间存在第一CRB，则执行S800a：

S800a、第一网络设备向第二网络设备发送第一CRB的配置信息。

其中，关于“第一CRB的配置信息”的相关说明可以参见S400a的介绍，此处不再赘述。

示例性的，在切换场景下，第一CRB的配置信息可以承载于切换请求(handoverrequest)消息。当然，第一CRB的配置信息也可以承载于其他消息中，本申请实施例对此不作限定。

需要说明的是，S800a是可选的步骤。这里，在终端设备与第一网络设备之间存在第一CRB的情况下，第一网络设备可以执行S800a，也可以不执行S800a。在终端设备与第一网络设备之间不存在第一CRB的情况下，第一网络设备无需执行S800a。

S800b、第二网络设备确定目标CRB的配置信息。

其中，目标CRB的配置信息可包括以下信息：

第一项、目标CRB的标识。其中，目标CRB的标识唯一标识一个CRB。

第二项、目标CRB的序列号尺寸。其中，目标CRB的序列号尺寸指示传输推理相关的信息(如目标ML子模型的信息、第一推理结果的全部信息、目标推理结果)的承载的长度。目标CRB的序列号尺寸可以是12比特、18比特等，本申请实施例对目标CRB的序列号尺寸不作限定。

第三项、目标CRB的丢弃时间。其中，目标CRB的丢弃时间指示终端设备在一定时长之后丢弃或释放目标CRB。例如，目标CRB的丢弃时间为“5分钟”，即指示终端设备保持目标CRB的时长为5分钟。5分钟之后，终端设备丢弃或释放目标CRB。

第四项、目标CRB的头压缩信息。其中，目标CRB的头压缩信息指示目标CRB的压缩信息。例如，头压缩信息为最大上下文标识的数值。此种情况下，先根据最大上下文标识的数值压缩第一ML子模型的信息(或第一推理结果、或目标推理结果)，再将压缩结果通过目标CRB传输。

需要说明的是，在上述四项信息中，目标CRB的配置信息包括目标CRB的标识，以唯一标识一个CRB。可选的，目标CRB的配置信息包括目标CRB的序列号尺寸、目标CRB的丢弃时间和目标CRB的头压缩信息中的至少一项。S800a是可选的步骤。在执行S800a的情况下，第二网络设备根据第一CRB的配置信息确定目标CRB的配置信息。例如，第二网络设备修改第一CRB的配置信息中的部分参数，以得到目标CRB的配置信息。在未执行S800a的情况下，第二网络设备也可以不结合第一CRB的配置信息，确定目标CRB的配置信息。

S800c、第二网络设备向第一网络设备发送目标CRB的配置信息。相应的，第一网络设备接收来自第二网络设备的目标CRB的配置信息。

示例性的，在切换场景下，目标CRB的配置信息承载于切换请求确认(handoverrequest acknowledge)消息中。切换请求确认消息是在第二网络设备已完成切换准备处理过程之后，向第一网络设备发送的消息。当然，目标CRB的配置信息也可以承载于其他消息中，本申请实施例对此不作限定。

S800d、第一网络设备向终端设备发送目标CRB的配置信息。相应的，终端设备接收来自第一网络设备的目标CRB的配置信息。

S800e、终端设备根据目标CRB的配置信息，配置目标CRB。

示例性的，在终端设备配置第一CRB的情况下，终端设备根据目标CRB的配置信息，对第一CRB进行修改，以得到目标CRB。在终端设备未配置第一CRB的情况下，终端设备根据目标CRB的配置信息，以配置目标CRB。

这里，终端设备完成目标CRB的配置之后，可选地，终端设备向第二网络设备发送配置确认。相应的，第二网络设备接收来自终端设备的重配置确认。

如此，在终端设备发生切换的场景下，第二网络设备确定目标CRB的配置信息之后，第二网络设备通过第一网络设备向终端设备提供目标CRB的配置信息，以使终端设备配置目标CRB。进而，终端设备和第二网络设备之间即可通过目标CRB传输推理相关的信息。

需要说明的是，S800是可选的步骤。这里，在PDCP层关联CRB的情况下，本申请实施例协同推理方法包括S800，即执行“配置目标CRB”的过程。在PDCP层未关联CRB的情况下，本申请实施例协同推理方法不包括S800，即无需执行“配置目标CRB”的过程。

S801、第一网络设备向第二网络设备发送目标ML子模型的信息。相应的，第二网络设备接收来自第一网络设备的目标ML子模型的信息。

其中，目标ML子模型的输入数据对应第一ML子模型的输出数据。这里，第一网络设备执行S402之后，即可得到目标ML子模型。

示例性的，下面通过示例一和示例二对S801的具体实现过程进行说明：

示例一、在第一网络设备与第二网络设备之间的ML模型同步的情况下，第一网络设备通过第二目标指示信息为第二网络设备指示目标ML子模型，具体如图9b中“示例一”框图所示。这里，“第一网络设备与第二网络设备之间的ML模型同步”是指，ML模型的切分选项所表征的含义适用于第一网络设备和第二网络设备。换言之，对于第一网络设备和第二网络设备而言，两者对ML模型的切分选项所表征的含义有相同的理解。S801具体实现为S801c。图9b所示步骤的具体说明如下：

S801a、第一网络设备向第二网络设备发送ML模型查询请求。相应的，第二网络设备接收来自第一网络设备的ML模型查询请求。

其中，ML模型查询请求用于请求第二网络设备支持的ML模型，以及第二网络设备支持的ML模型的切分方式。这里，在第二网络设备支持的ML模型的切分方式为“按层切分”的情况下，不同切分选项的含义介绍可以参见图1的相关说明，此处不再赘述。

S801b、第二网络设备向第一网络设备发送模型信息2。相应的，第一网络设备接收来自第二网络设备的模型信息2。

其中，模型信息2指示第二候选指示信息与第二切分位置之间的对应关系。第二切分位置是指在对ML模型进行切分时的切分位置。

示例性的，ML模型的切分方式为“按层切分”，且定义了不同切分选项的含义，具体如图1所示。这里，一个第二候选指示信息实现为一个切分选项，不同的第二候选指示信息实现为不同的切分选项。第二切分位置即为切分选项对应的切分位置。若第二目标指示信息实现为切分选项“1”，则表示在ML模型的隐含层第一层和隐含层第二层之间进行切分。如此，第一ML子模型包括ML模型的输入层和隐含层第一层，目标ML子模型包括ML模型的隐含层第二层、隐含层第三层和输出层。

可选的，在单个ML模型的场景下，模型信息2可以不携带ML模型的标识。在多个ML模型的场景下，模型信息2携带ML模型的标识，以使第一网络设备根据ML模型的标识确定相应的模型。

需要说明的是，S801a和S801b是可选步骤。例如，若第一网络设备和第二网络设备预先从其他网络设备获取模型信息2，则无需执行S801a和S801b。这里，第一网络设备和第二网络设备也可以从网络控制设备获取模型信息2，以实现第一网络设备和第二网络设备之间的模型同步。其中，网络控制设备可以是OAM设备。进一步地，在执行S801a和S801b的情况下，第二网络设备可以执行S801b，且不执行S801a，也就是说，第二网络设备能够直接向第一网络设备反馈模型信息2。当然，第二网络设备也可以执行S801a和S801b，也就是说，在第一网络设备向第二网络设备请求的情况下，第二网络设备才向第一网络设备反馈模型信息2。

S801c、第一网络设备向第二网络设备发送第二目标指示信息。相应的，第二网络设备接收来自第一网络设备的第二目标指示信息。

其中，第二目标指示信息指示ML模型的切分位置。这里，第二目标指示信息包括目标ML子模型对应的切分选项，通过切分选项来指示ML模型的切分位置，以使第二网络设备通过切分ML模型得到目标ML子模型。示例性的，在切换场景下，第二目标指示信息可以承载于切换请求消息中。切换请求消息用于请求将终端设备切换至第二网络设备。在第二网络设备已完成切换准备处理过程之后，第二网络设备向第一网络设备发送切换请求确认消息。

可选的，在单个ML模型的场景下，第二目标指示信息可以不携带目标ML子模型的标识。在多个ML模型的场景下，第二目标指示信息携带第一ML子模型的标识。这里，目标ML子模型的标识和ML模型的标识相同。

示例性的，仍以图1所示的场景为例，在第一网络设备确定切分选项为“1”的情况下，第二目标指示信息包括切分选项为“1”。相应的，第一ML子模型包括ML模型的输入层和隐含层第一层，目标ML子模型包括ML模型的隐含层第二层、隐含层第三层和输出层。此种情况下，目标ML子模型的输入数据对应第一ML子模型的输出数据。

S801d、第二网络设备根据模型信息2和第二目标指示信息确定目标ML子模型。

示例性的，在多个ML模型的场景下，第二网络设备获取模型信息2的情况下，即可获知ML模型的标识对应的ML模型的切分方式。在模型信息2所指示的“按层切分”的这一切分方式下，第二网络设备再结合第二目标指示信息即可获知对哪一模型进行切分，以及待切分的ML模型中“哪些层属于目标ML子模型”，进而得到目标ML子模型。例如，在第二目标指示信息包括切分选项为“1”的情况下，第二网络设备对ML模型进行切分，即在隐含层第一层和隐含层第二层之间进行切分，以得到目标ML子模型。

如此，在第一网络设备与第二网络设备之间的ML模型同步的情况下，第一网络设备即可向第二网络设备发送第二目标指示信息(即目标ML子模型对应的切分选项，以指示对ML模型的切分位置)，以使得第二网络设备获取目标ML子模型，从而节省传输资源。

示例二、在推理需求信息包括ML模型全信息的情况下，如图9b中“示例二”框图所示，S801具体实现为S801a：

S801a、第一网络设备向第二网络设备发送目标ML子模型全信息。相应的，第二网络设备接收来自第一网络设备的目标ML子模型全信息。

这里，目标ML子模型全信息是指能完整描述目标ML子模型的信息，例如，描述目标ML子模型的源代码、目标ML子模型的可执行程序代码、或目标ML子模型经过部分或全部编译的代码等。如此，在第一网络设备为第二网络设备提供目标ML子模型全信息的情况下，第一网络设备与第二网络设备之间无需进行模型同步，第二网络设备也能够获取目标ML子模型。

对于终端设备而言，终端设备执行S404，得到第一推理结果。参见图8，在终端设备由第一网络设备切换至第二网络设备之前，针对第一推理结果，终端设备与第一网络设备之间的传输状况可分如下三种情况：

第一种情况(如图8中“第一种请情况”框图所示)：第一推理结果的全部信息(即完整的第一推理结果)分为两部分，即第一推理结果的全部信息包括第一推理结果的第一部分信息和第一推理结果的第二部分信息。其中，第一推理结果的第一部分信息是指终端设备向第一网络设备提供的第一推理结果的信息。第一推理结果的第二部分信息是指终端设备向第二网络设备提供的第一推理结果的信息。也就是说，在终端设备向第一网络设备发送第一推理结果的第一部分信息之后，终端设备发生切换，即从第一网络设备切换至第二网络设备，终端设备不再与第一网络设备交互，从而向第二网络设备发送第一推理结果的第二部分信息。并且，为了使得网络侧执行目标ML子模型的推理运算，第一网络设备需要向第二网络设备发送第一推理结果的第一部分信息，以使第二网络设备执行推理运算，得到目标推理结果，具体参见第一种情况中的S802a至S802c的相关描述：

S802a、终端设备向第一网络设备发送第一推理结果的第一部分信息。相应的，第一网络设备接收来自终端设备的第一推理结果的第一部分信息。

示例性的，仍以图1中“第一ML子模型包括ML模型的输入层和隐含层第一层”为例，第一推理结果为隐含层第一层的推理结果。终端设备向第一网络设备发送隐含层第一层的推理结果的第一部分信息。相应的，第一网络设备接收来自终端设备的隐含层第一层的推理结果的第一部分信息。

需要说明的是，第一网络设备可以先执行S801，再执行S802a，第一网络设备也可以先执行S802a，再执行S801，第一网络设备还可以同时执行S801和S802a，本申请实施例对此不作限定。进一步地，在“目标ML子模型”承载于切换请求消息的情况下，第一网络设备先执行S802a，再执行S801。

S802b、第一网络设备向第二网络设备发送第一推理结果的第一部分信息。相应的，第二网络设备接收来自第一网络设备的第一推理结果的第一部分信息。

需要说明的是，可选的，第一网络设备还向第二网络设备发送第一CRB的状态信息。相应的，第二网络设备接收来自第一网络设备的第一CRB的状态信息。

其中，第一CRB的状态信息包括第一CRB的标识，以及第一CRB中各个CRB序列号对应的状态。例如，一个CRB序列号对应的状态通过比特位的取值状况来表征。一个CRB序列号对应的比特位取值为“0”，则表征该CRB序列号对应的数据部分接收失败。一个CRB序列号对应的比特位取值为“1”，则表征该CRB序列号对应的数据部分接收成功。或者，反之，一个CRB序列号对应的比特位取值为“0”，则表征该CRB序列号对应的数据部分接收成功。一个CRB序列号对应的比特位取值为“1”，则表征该CRB序列号对应的数据部分接收失败。如此，第二网络设备根据第一CRB的状态信息，即可获知“第一网络设备接收失败的数据部分”，进而，第二网络设备即可请求终端设备重新发送“第一网络设备接收失败的数据部分”。如此，终端设备即可向第二网络设备发送“第一网络设备接收失败的数据部分”，以保证第二网络设备获取第一推理结果的全部信息。

S802c、终端设备向第二网络设备发送第一推理结果的第二部分信息。相应的，第二网络设备接收来自终端设备的第一推理结果的第二部分信息。

至此，第二网络设备可以将从第一网络设备获取的第一推理结果的第一部分信息以及从终端设备获取的第一推理结果的第二部分信息作为目标ML子模型的输入数据，进行推理运算。

第二种情况(如图8中“第二种请情况”框图所示)：终端设备在向第一网络设备发送完整的第一推理结果之后，终端设备发生切换，即从第一网络设备切换至第二网络设备，具体参见第二种情况中的S802a和S802b的相关描述：

S802a、终端设备向第一网络设备发送第一推理结果的全部信息。即，终端设备向第一网络设备发送完整的第一推理结果。相应的，第一网络设备接收来自终端设备的第一推理结果的全部信息。

示例性的，仍以图1中“第一ML子模型包括ML模型的输入层和隐含层第一层”为例，第一推理结果为隐含层第一层的推理结果。终端设备向第一网络设备发送隐含层第一层的推理结果的全部信息。相应的，第一网络设备接收来自终端设备的隐含层第一层的推理结果的全部信息。

S802b、第一网络设备向第二网络设备发送第一推理结果的全部信息。相应的，第二网络设备接收来自第一网络设备的第一推理结果的全部信息。

至此，第二网络设备可以将从第一网络设备获取的第一推理结果的全部信息作为目标ML子模型的输入数据，进行推理运算。

第三种情况(如图8中“第三种请情况”框图所示)：终端设备得到第一推理结果之后，终端设备已经发生切换，即从第一网络设备切换至第二网络设备，终端设备不向第一网络设备提供第一推理结果，而向第二网络设备提供第一推理结果，具体参见第三种情况中S802a的相关描述：

S802a、终端设备向第二网络设备发送第一推理结果的全部信息。相应的，第二网络设备接收来自终端设备的第一推理结果的全部信息。

示例性的，仍以“第一ML子模型包括ML模型的输入层和隐含层第一层”为例，第一推理结果为隐含层第一层的推理结果。终端设备向第二网络设备发送隐含层第一层的推理结果的全部信息。相应的，第二网络设备接收来自终端设备的隐含层第一层的推理结果的全部信息。

至此，第二网络设备可以将从终端设备获取的第一推理结果的全部信息作为目标ML子模型的输入数据，进行推理运算。

在上述三种情况下，第二网络设备通过不同方式获取第一推理结果的全部信息，执行本地推理，即第二网络设备执行S803：

S803、第二网络设备根据第一推理结果的全部信息和目标ML子模型，计算目标推理结果。

示例性的，仍以图1中“第一ML子模型包括ML模型的输入层和隐含层第一层”为例，第一推理结果为隐含层第一层的推理结果。目标ML子模型包括隐含层第二层、隐含层第三层和输出层。第二网络设备将第一推理结果的全部信息作为目标ML子模型的输入数据，采用目标ML子模型执行推理计算，以得到目标推理结果。需要说明的是，在上述第一种情况下，第二网络设备执行S802b和S802c之后，第二网络设备整合第一推理结果的第一部分信息和第一推理结果的第二部分信息，以得到第一推理结果的全部信息，即完整的第一推理结果，进而执行S803，从而得到目标推理结果。

S804、第二网络设备向终端设备发送目标推理结果。相应的，终端设备接收来自第二网络设备的目标推理结果。

其中，S804的具体实现过程可以参见S407的相关说明，此处不再赘述。

需要说明的是，在上述步骤中，在第一网络设备和第二网络设备之间存在Xn接口的情况下，上述步骤中，第一网络设备与第二网络设备之间通过Xn接口传输消息。第一网络设备和第二网络设备可以采用已有的协议栈传输相关信息，也可以采用图9c所示的协议栈传输相关信息。例如，第一网络设备和第二网络设备之间的消息承载于b类型高层数据分析协议(high data analytics protocol type b，HDAPb)消息。HDAPb协议支持第一网络设备和第二网络设备之间的计算数据传输(如数据分割、数据排序)，以及计算数据安全(如数据完整性保护、数据加密、数据解密)等功能。HDAPb消息可承载在XnAP消息中。这里，图9c示出了两个接入网设备(即接入网设备1和接入网设备2)之间的协议栈，该协议栈用于两个接入网设备之间传输推理运算的相关信息。该协议栈主要包括HDAP层、Xn应用协议(Xnapplication protocol，XnAP)层、流控制传输协议(stream control transmissionprotocol，SCTP)层、互联网协议(internet protocol，IP)层、L2层和L1层。上述相关信息可以例如但不限于如下信息：目标ML子模型的信息、第一推理结果的第一部分信息、第一推理结果的全部信息。

反之，在第一网络设备和第二网络设备之间不存在Xn接口的情况下，上述步骤中，第一网络设备与第二网络设备之间通过核心网设备传输信息。以“第一网络设备向第二网络设备发送第一推理结果的全部信息”为例，第一网络设备通过NG接口向核心网设备发送第一推理结果的全部信息。相应的，核心网设备接收来自第一网络设备的第一推理结果的全部信息。之后，核心网设备向第二网络设备发送第一推理结果的全部信息。相应的，第二网络设备接收来自核心网设备的第一推理结果的全部信息。这里，第一网络设备(或第二网络设备)和核心网设备可以采用已有的协议栈传输相关信息，也可以采用图9d所示的协议栈传输相关信息。例如，第一网络设备(或第二网络设备)和核心网设备之间的消息承载于a类型高层数据分析协议(high data analytics protocol type a，HDAPa)消息。HDAPa协议支持第一网络设备(或第二网络设备)和核心网设备之间的计算数据传输(如数据分割、数据排序)，以及计算数据安全(如数据完整性保护、数据加密、数据解密)等功能。HDAPa消息可承载在下一代应用协议(next generation application protocol，NGAP)消息中。图9d示出了接入网设备和核心网设备之间的协议栈，该协议栈用于接入网设备和核心网设备之间传输推理运算的相关信息。该协议栈主要包括HDAPa层、NGAP层、SCTP层、IP层、L2层和L1层。

下面，针对“RRC连接恢复”或“RRC连接重建立”场景，对本申请实施例提供的第二种协同推理方法进行说明。需要说明的是，在该场景下，终端设备在第一网络设备服务的区域内发生RRC中断、失败或挂起，然后进入第二网络设备服务的区域，并向第二网络设备发起RRC连接恢复或RRC连接重建立。

需要说明的是，在RRC连接恢复场景或RRC连接重建立场景下，目标CRB的配置过程(即S800的具体实现过程)如图10所示的步骤：

S1000a、第一网络设备向第二网络设备发送第一CRB的配置信息。

其中，关于“第一CRB的配置信息”的相关说明可以参见S800a的介绍，此处不再赘述。在“RRC连接恢复”场景下，第一CRB的配置信息可以承载于检索终端设备上下文响应(retrieve UE context response)消息。当然，第一CRB的配置信息也可以承载于其他消息中，本申请实施例对此不作限定。

需要说明的是，S1000a是可选的步骤。这里，在终端设备与第一网络设备之间存在第一CRB的情况下，第一网络设备可以执行S1000a，也可以不执行S1000a。在终端设备与第一网络设备之间不存在第一CRB的情况下，第一网络设备无需执行S1000a。

S1000b、第二网络设备确定目标CRB的配置信息。

其中，S1000b的具体实现过程可以参见S800b的相关说明，此处不再赘述。

S1000c、第二网络设备向终端设备发送目标CRB的配置信息。相应的，终端设备接收来自第二网络设备的目标CRB的配置信息。

S1000d、终端设备根据目标CRB的配置信息，配置目标CRB。

其中，S1000d的具体实现过程可以参见S800e的相关说明，此处不再赘述。

如此，在终端设备执行RRC连接恢复场景下，第二网络设备确定目标CRB的配置信息之后，第二网络设备向终端设备提供目标CRB的配置信息，以使终端设备配置目标CRB，通过目标CRB与第二网络设备之间传输推理相关的信息。

此外，在“RRC连接恢复”场景中，终端设备与网络设备之间的信息传输过程还可包括如下步骤1a至步骤1c：

步骤1a、终端设备向第二网络设备发送RRC恢复请求消息。相应的，第二网络设备接收来自终端设备的RRC恢复请求消息。

其中，RRC恢复请求消息用于请求恢复RRC连接。RRC恢复请求消息包括RRC恢复原因。示例性的，RRC恢复原因为终端设备需要发送第一推理结果。

步骤1b、第二网络设备向第一网络设备发送检索终端设备上下文请求消息。相应的，第一网络设备接收来自第二网络设备的检索终端设备上下文请求消息。

其中，检索终端设备上下文请求消息用于请求终端设备的上下文。示例性的，检索终端设备上下文请求消息包括RRC恢复原因。这里，RRC恢复原因仍为终端设备需要发送第一推理结果。

步骤1c、第一网络设备向第二网络设备发送检索终端设备上下文响应(retrieveUE context response)消息。相应的，第二网络设备接收来自第一网络设备的检索终端设备上下文响应消息。

在“RRC连接重建立”场景中，终端设备与网络设备之间的信息传输过程包括如下步骤2a至步骤2c：

步骤2a、终端设备向第二网络设备发送RRC重建立请求(RRC reestablishmentrequest)消息。相应的，第二网络设备接收来自终端设备的RRC重建立请求消息。

其中，RRC重建立请求消息用于请求重建立RRC连接。RRC重建立请求消息包括RRC重建立原因。示例性的，RRC重建立原因为终端设备需要发送第一推理结果。

步骤2b、第二网络设备向第一网络设备发送检索终端设备上下文请求消息。相应的，第一网络设备接收来自第二网络设备的检索终端设备上下文请求消息。其中，步骤2b的介绍可以参见“RRC连接恢复”场景中步骤1b的相关说明，此处不再赘述。

步骤2c、第一网络设备向第二网络设备发送检索终端设备上下文响应(retrieveUE context response)消息。相应的，第二网络设备接收来自第一网络设备的检索终端设备上下文响应消息。其中，步骤2c的介绍可以参见“RRC连接恢复”场景中步骤1c的相关说明，此处不再赘述。

这里，“RRC连接恢复”或“RRC连接重建立”场景下，在S801的具体实现过程中，目标ML子模型的信息(如第二目标指示信息或目标ML子模型全信息)可以承载于检索终端设备上下文响应消息。

需要说明的是，在“RRC连接恢复”或“RRC连接重建立”场景下，第一推理结果的全部信息(即完整的第一推理结果)仍可分为两部分，具体详见图8的相关说明，此处不再赘述。也就是说，在终端设备向第一网络设备发送第一推理结果的第一部分信息之后，若第一网络设备接收来自第二网络设备的检索终端设备上下文请求消息，则第一网络设备不再与终端设备交互。此种情况下，终端设备与第二网络设备执行RRC连接恢复过程，终端设备向第二网络设备发送第一推理结果的第二部分信息。并且，为了使得网络侧执行目标ML子模型的推理运算，第一网络设备还向第二网络设备发送第一推理结果的第一部分信息，以使第二网络设备执行推理运算，参见图8中第一种情况的具体实现。

或者，终端设备在向第一网络设备发送完整的第一推理结果之后，若第一网络设备接收来自第二网络设备的检索终端设备上下文请求消息，则第一网络设备向第二网络设备发送完整的第一推理结果，以使第二网络设备执行推理运算，参见图8中第二种情况的具体实现。

或者，终端设备与第二网络设备执行RRC连接恢复过程。第一网络设备接收来自第二网络设备的检索终端设备上下文请求消息，第一网络设备不再与终端设备交互。终端设备得到第一推理结果之后，终端设备向第二网络设备提供完整的第一推理结果，参见图8中第三种情况的具体实现。

在本申请实施例提供的第二种协同推理方法中，即使终端设备从第一网络设备切换到第二网络设备，或终端设备执行RRC连接恢复以接入第二网络设备，或终端设备执行RRC连接重建立以接入第二网络设备，终端设备得到第一推理结果之后，能够直接(如终端设备向第二网络设备发送第一推理结果的全部信息)或间接(如第一网络设备向第二网络设备转发终端设备的第一推理结果的第一部分信息或全部信息)地向第二网络设备提供第一推理结果的全部信息。第二网络设备能够结合目标ML子模型对第一推理结果的全部信息进行运算，以得到目标推理结果，再提供给终端设备，使得终端设备无需执行完整的推理运算，降低了终端设备获取目标推理结果的时延。同样地，终端设备向网络设备提供的是ML模型计算的中间结果而不是ML模型的输入数据，降低了“数据隐私暴露”的风险，提高了终端设备数据的安全性。

以上第二种协同推理方法，均以“第一网络设备不执行推理运算”的场景为例进行相关介绍。下面，再以“第一网络设备执行推理运算”的场景为例，对本申请实施例协同推理方法进行描述。这里，仍以终端设备发生切换为例，在第一网络设备获取到终端设备提供的完整的第一推理结果之后，第一网络设备确定无需对终端设备发起切换，则第一网络设备执行推理运算。再以终端设备发生“RRC连接恢复”或“RRC连接重建立”为例，在第一网络设备获取到终端设备提供的完整的第一推理结果之后，若第一网络设备未接收到来自第二网络设备的检索终端设备上下文请求消息，则第一网络设备执行推理运算。

在第一网络设备执行推理运算的场景下，ML模型包括第一ML子模型和目标ML子模型。可选地，ML模型还包括第二ML子模型。在终端设备侧，用于执行推理的模型描述为“第一ML子模型”，得到的推理结果描述为“第一推理结果”。在第一网络设备侧，在第一网络设备基于第一推理结果执行推理运算得到目标推理结果的情况下，将第一网络设备执行推理的模型描述为“目标ML子模型”，得到的推理结果描述为“目标推理结果”，具体详见如下“第二种情况”的相关描述。或者，在第一网络设备基于第一推理结果执行推理运算未得到目标推理结果的情况下，将第一网络设备执行推理的模型描述为“第二ML子模型”，得到的推理结果描述为“第二推理结果”，具体详见如下“第一种情况”的相关描述。在第二网络设备侧，用于执行推理的模型描述为“目标ML子模型”，得到的推理结果描述为“目标推理结果”。可选的，在通过CRB传输推理相关信息的情况下，终端设备与第一网络设备之间的CRB描述为“第一CRB”，终端设备与第二网络设备之间的CRB描述为“目标CRB”。

下面，以终端设备发生切换(即终端设备由第一网络设备切换至第二网络设备，此时，第一网络设备为第一接入网设备，第二网络设备为第二接入网设备)为例，对本申请实施例提供的第三种协同推理方法进行介绍，该协同推理方法应用在机器学习过程中。参见图11，该协同推理方法包括S400至S404，以及S800和如下步骤：

需要说明的是，可选的，在切换的场景下，关于“配置目标CRB”的过程(即S800的具体实现过程)可以参见图9a的相关说明，此处不再赘述。

S1101、第一网络设备向第二网络设备发送目标ML子模型的信息。相应的，第二网络设备接收来自第一网络设备的目标ML子模型的信息。

此种情况下，图11场景中的目标ML子模型与图4(或图8)中的目标ML子模型不同。这里，ML模型包括第一ML子模型、第二ML子模型和目标ML子模型。也就是说，第一ML子模型的输出数据对应第二ML子模型的输入数据，第二ML子模型的输出数据对应目标ML子模型的输入数据。换言之，在第一网络设备切分ML模型得到第一ML子模型之后，进一步对ML模型进行切分，以得到第二ML子模型和目标ML子模型。这里，关于“第二ML子模型”的介绍可以参见第一种情况中S1103a的相关说明，此处不再赘述。例如，仍以图1所示的ML模型为例，仍以“第一ML子模型包括输入层和隐含层第一层”为例，在第二ML子模型包括隐含层第二层的情况下，目标ML子模型包括ML模型的隐含层第三层和输出层。

示例性的，S1101的具体实现过程可以参见S801的相关说明，此处不再赘述。

需要说明的是，S1101是可选的步骤。这里，在第一网络设备基于第一推理结果执行推理运算未得到目标推理结果的情况下，第一网络设备执行S1101，具体参见如下“第一种情况”的相关说明。反之，在第一网络设备基于第一推理结果执行推理运算得到目标推理结果的情况下，第一网络设备无需执行S1101，具体参见如下“第二种情况”的相关说明。对于终端设备而言，终端设备执行S404，得到第一推理结果。之后，终端设备执行S1102：

S1102、终端设备向第一网络设备发送第一推理结果的全部信息。即，终端设备向第一网络设备发送完整的第一推理结果。相应的，第一网络设备接收来自终端设备的第一推理结果的全部信息。

其中，S1102的具体实现过程可以参见图8中第二种情况的S802a的相关说明，此处不再赘述。

需要说明的是，第一网络设备可以先执行S1101，再执行S1102，第一网络设备也可以先执行S1102，再执行S1101，第一网络设备还可以同时执行S1101和S1102，本申请实施例对此不作限定。进一步地，在“目标ML子模型”承载于切换请求消息的情况下，第一网络设备先执行S1102，再执行S1101。

对于第一网络设备而言，第一网络设备获取第一推理结果的全部信息之后，第一网络设备执行本地推理。针对第一网络设备执行的本地推理而言，分如下两种情况：

第一种情况(如图11中“第一种情况”框图所示)：第一网络设备在执行本地推理的过程中，确定需要对终端设备发起切换，则第一网络设备停止本地推理运算过程，而向第二网络设备提供第二推理结果和目标ML子模型，再由第二网络设备采用目标ML子模型对第二推理结果继续执行推理运算，以得到目标推理结果。或者，第一网络设备在执行本地推理的过程中，确定需要对终端设备发起切换，且第二网络设备的计算能力优于第一网络设备的计算能力，则第一网络设备仍停止本地推理运算过程，而向第二网络设备提供第二推理结果，再由第二网络设备基于第二推理结果继续执行推理运算。此种情况下，ML模型包括第一ML子模型、第二ML子模型和目标ML子模型，具体详见S1103a至S1103c的相关描述：

S1103a、第一网络设备根据第一推理结果的全部信息和第二ML子模型，计算第二推理结果。

其中，第二ML子模型的输入数据对应第一ML子模型的输出数据。

示例性的，仍以图1所示的ML模型为例，在第一ML子模型包括输入层和隐含层第一层的情况下，第一推理结果为隐含层第一层的推理结果。第二ML子模型包括隐含层第二层。第一网络设备将隐含层第一层的推理结果作为第二ML子模型的输入数据，得到隐含层第二层的推理结果，即第二推理结果。

S1103b、第一网络设备向第二网络设备发送第二推理结果。相应的，第二网络设备接收来自第一网络设备的第二推理结果。

示例性的，在第二ML子模型包括隐含层第二层的情况下，第二推理结果为隐含层第二层的推理结果。第一网络设备向第二网络设备发送隐含层第二层的推理结果。

S1103c、第二网络设备根据第二推理结果和目标ML子模型，计算目标推理结果。

其中，目标ML子模型的输入数据对应第二ML子模型的输出数据。第二网络设备获取目标ML子模型的过程可以参见S1101的相关说明，此处不再赘述。

示例性的，仍以图1所示的ML模型为例，在第二ML子模型包括隐含层第二层的情况下，第二推理结果为隐含层第二层的推理结果。目标ML子模型包括ML模型的隐含层第三层和输出层。第二网络设备将隐含层第二层的推理结果作为目标ML子模型的输入数据，以得到目标推理结果。

第二种情况(如图11中“第二种情况”框图所示)：第一网络设备在执行本地推理的过程之后，终端设备才发生切换。如此，第一网络设备执行本地推理运算过程，得到目标推理结果。由于终端设备已发生切换，第一网络设备无法向终端设备提供目标推理结果，因此，第一网络设备向第二网络设备提供目标推理结果，由第二网络设备为终端设备提供目标推理结果。此种情况下，ML模型包括第一ML子模型和目标ML子模型，具体详见S1103a和S1103b的相关描述：

S1103a、第一网络设备根据第一推理结果的全部信息和目标ML子模型，计算目标推理结果。

其中，目标ML子模型的输入数据对应第一ML子模型的输出数据。

示例性的，仍以图1所示的ML模型为例，在第一ML子模型包括隐含层第一层的情况下，第一推理结果为隐含层第一层的推理结果。目标ML子模型包括隐含层第二层、隐含层第三层和输出层。第一网络设备将隐含层第一层的推理结果作为目标ML子模型的输入数据，以得到目标推理结果。

S1103b、第一网络设备向第二网络设备发送目标推理结果。相应的，第二网络设备接收来自第一网络设备的目标推理结果。

示例性的，在“目标ML子模型包括隐含层第二层、隐含层第三层和输出层”的情况下，目标推理结果为ML模型的最终推理结果。第一网络设备向第二网络设备发送ML模型的最终推理结果。此种情况下，第一网络设备为第二网络设备提供目标推理结果。第二网络设备无需获取目标ML子模型，即第二网络设备无需执行S1101。

需要说明的是，第一网络设备在执行本地推理的过程中，确定终端设备发生切换，且第一网络设备的计算能力优于第二网络设备的计算能力。第一网络设备可以停止本地推理运算过程，而向第二网络设备提供第二推理结果，再由第二网络设备基于第二推理结果继续执行推理运算，即执行上述“第一种情况”的执行过程。或者，第一网络设备可以继续执行本地推理运算过程，得到目标推理结果，再向第二网络设备提供目标推理结果，即执行上述“第二种情况”的执行过程，本申请实施例对此不作限定。

在上述两种情况下，第二网络设备通过不同方式获取目标推理结果，之后，第二网络设备执行S1104：

S1104、第二网络设备向终端设备发送目标推理结果。相应的，终端设备接收来自第二网络设备的目标推理结果。

其中，S1104的具体实现过程可以参见S804的相关说明，此处不再赘述。

需要说明的是，在上述步骤中，在第一网络设备和第二网络设备之间存在Xn接口的情况下，上述步骤中，第一网络设备与第二网络设备之间通过Xn接口传输相关信息。反之，在第一网络设备和第二网络设备之间不存在Xn接口的情况下，上述步骤中，第一网络设备与第二网络设备之间通过核心网设备传输上述相关信息。这里，相关信息可以例如但不限于如下信息：目标ML子模型的信息、第二推理结果、目标推理结果。

下面，以终端设备执行RRC连接恢复过程或RRC连接重建立过程为例，对本申请实施例提供的第三种协同推理方法进行介绍。

需要说明的是，在“RRC连接恢复”场景或“RRC连接重建立”场景中，第一网络设备在执行本地推理的过程中，若第一网络设备接收来自第二网络设备的检索终端设备上下文请求消息，则第一网络设备停止本地推理运算过程。第一网络设备向第二网络设备提供第二推理结果，再由第二网络设备基于第二推理结果继续执行推理运算，以得到目标推理结果。或者，第一网络设备在执行本地推理的过程中，第一网络设备接收来自第二网络设备的检索终端设备上下文请求消息，且第二网络设备的计算能力优于第一网络设备的计算能力，则第一网络设备停止本地推理运算过程，而向第二网络设备提供第二推理结果，再由第二网络设备基于第二推理结果继续执行推理运算。详见图11中第一种情况的具体实现。

或者，第一网络设备在执行本地推理的过程结束之后，若第一网络设备接收来自第二网络设备的检索终端设备上下文请求消息，则第一网络设备向第二网络设备提供目标推理结果，详见图11中第二种情况的具体实现。

另外，“RRC连接恢复”场景或“RRC连接重建立”场景中，第一网络设备在执行本地推理的过程中，若第一网络设备接收来自第二网络设备的检索终端设备上下文请求消息，且第一网络设备的计算能力优于第二网络设备的计算能力。第一网络设备可以停止本地推理运算过程，而向第二网络设备提供第二推理结果，再由第二网络设备基于第二推理结果继续执行推理运算，即执行上述“第一种情况”的执行过程。或者，第一网络设备可以继续执行本地推理运算过程，得到目标推理结果，再向第二网络设备提供目标推理结果，即执行上述“第二种情况”的执行过程，本申请实施例对此不作限定。

在本申请实施例提供的第三种协同推理方法中，终端设备能够确定第一推理结果，并向第一网络设备发送第一推理结果的全部信息，第一网络设备能够结合目标ML子模型对第一推理结果的全部信息进行运算，以得到目标推理结果，再通过第二网络设备提供给终端设备。或者，第一网络设备结合第二ML子模型对第一推理结果的全部信息进行运算，以得到第二推理结果，第二网络设备再结合目标ML子模型对第二推理结果进行运算，以得到目标推理结果，再提供给终端设备。如此，即使终端设备从第一网络设备切换到第二网络设备，或终端设备执行RRC连接恢复，或终端设备执行RRC连接重建立，终端设备无需执行完整的推理运算，降低了终端设备获取目标推理结果的时延。同样地，终端设备向网络设备提供的是ML模型计算的中间结果而不是ML模型的输入数据，降低了“数据隐私暴露”的风险，提高了终端设备数据的安全性。

以上第二种或第三种协同推理方法，均以“第一网络设备确定第一ML子模型”的场景为例进行相关介绍。下面，仍以终端设备发生切换为例，在第一网络设备获取到终端设备提供的推理需求信息之后，第一网络设备确定终端设备发生切换，则第一网络设备不确定第一ML子模型。或者，在第一网络设备获取到终端设备提供的推理需求信息之后，第一网络设备确定需要对终端设备发起切换，且第二网络设备的计算能力优于第一网络设备的计算能力，则第一网络设备仍不确定第一ML子模型，而由第二网络设备确定第一ML子模型。再以终端设备发生“RRC连接恢复”或“RRC连接重建立”为例，在第一网络设备获取到终端设备提供的推理需求信息之后，若第一网络设备接收来自第二网络设备的检索终端设备上下文请求消息，则第一网络设备不确定第一ML子模型。第一网络设备向第二网络设备提供推理需求信息，再由第二网络设备确定第一ML子模型。这里，以“第二网络设备确定第一ML子模型”的场景为例，对本申请实施例协同推理方法进行描述。这里，在第二网络设备确定第一ML子模型的场景下，ML模型包括第一ML子模型和目标ML子模型。在终端设备侧，用于执行推理的模型描述为“第一ML子模型”，得到的推理结果描述为“第一推理结果”。在第二网络设备侧，用于执行推理的模型描述为“目标ML子模型”，得到的推理结果描述为“目标推理结果”。可选的，在通过CRB传输推理相关信息的情况下，终端设备与第一网络设备之间的CRB描述为“第一CRB”，终端设备与第二网络设备之间的CRB描述为“目标CRB”。

下面，以终端设备发生切换(即终端设备由第一网络设备切换至第二网络设备)为例，对本申请实施例提供的第四种协同推理方法进行介绍，该协同推理方法应用在机器学习过程中。参见图12，该协同推理方法包括S400和S401，以及S800和如下步骤：

需要说明的是，可选的，在通过CRB传输推理相关信息的情况下，关于“配置目标CRB”的过程可以参见图9a的相关说明，此处不再赘述。

S1201、第一网络设备向第二网络设备发送推理需求信息。相应的，第二网络设备接收来自第一网络设备的推理需求信息。

其中，关于“推理需求信息”的相关介绍可以参见S401的相关说明，此处不再赘述。

这里，在“切换”场景下，推理需求信息可以承载于切换请求消息。切换请求消息用于请求将终端设备切换至第二网络设备。

S1202、第二网络设备根据推理需求信息确定第一ML子模型。

其中，S1202的具体实现过程可以参见S402的相关说明，此处不再赘述。

S1203、第二网络设备通过第一网络设备向终端设备发送第一ML子模型的信息。相应的，终端设备通过第一网络设备接收来自第二网络设备的第一ML子模型的信息。

其中，第一ML子模型用于终端设备执行推理运算，以得到第一推理结果。这里，S1203具体如图12中“切换场景”框图所示。下面，通过两种可能的实现方式对S1203的具体实现进行说明：

作为第一种可能的实现方式，如图13中“第一种可能的实现方式”框图所示，在第二网络设备和终端设备的ML模型同步的情况下，第二网络设备通过第一目标指示信息指示第一ML子模型。这里，“第二网络设备与终端设备的ML模型同步”是指，ML模型的切分选项所表征的含义适用于第二网络设备和终端设备。换言之，对于第二网络设备和终端设备而言，两者对ML模型的切分选项所表征的含义有相同的理解。S1203具体实现为S1203b。关于图13所示的步骤的具体说明如下：

S1203a、第二网络设备通过第一网络设备向终端设备发送模型信息1。相应的，终端设备通过第一网络设备接收来自第二网络设备的模型信息1。

其中，模型信息1的介绍可以参见S403a中的相关说明，此处不再赘述。这里，S1203a具体实现过程如下：第二网络设备向第一网络设备发送模型信息1。相应的，第一网络设备接收来自第二网络设备的模型信息1。之后，第一网络设备向终端设备发送模型信息1。相应的，终端设备接收来自第一网络设备的模型信息1。

需要说明的是，S1203a是可选的步骤。例如，若终端设备和第二网络设备预先从其他网络设备获取模型信息1，则无需执行S1203a。这里，终端设备和第二网络设备也可以从网络控制设备获取模型信息1，以实现终端设备和第二网络设备之间的模型同步。其中，网络控制设备可以是OAM设备。

S1203b、第二网络设备通过第一网络设备向终端设备发送第一目标指示信息。相应的，终端设备通过第一网络设备接收来自第二网络设备的第一目标指示信息。

其中，第一目标指示信息的介绍可以参见S403b的相关说明，此处不再赘述。这里，S1203b具体实现过程如下：第二网络设备向第一网络设备发送第一目标指示信息。相应的，第一网络设备接收来自第二网络设备的第一目标指示信息。之后，第一网络设备向终端设备发送第一目标指示信息。相应的，终端设备接收来自第一网络设备的第一目标指示信息。

S1203c、终端设备根据模型信息1和第一目标指示信息确定第一ML子模型。

其中，S1203c的具体实现过程可以参见S403c的介绍，此处不再赘述。

如此，第二网络设备通过第一网络设备向终端设备发送模型信息1，以指示ML模型的切分选项对应的切分位置，从而实现第二网络设备与终端设备之间的ML模型同步。进而，第二网络设备即可通过第一网络设备向终端设备发送第一目标指示信息(即第一ML子模型对应的切分选项)，以使终端设备确定第一ML子模型，从而节省传输资源。

作为第二种可能的实现方式，如图13中“第二种可能的实现方式”框图所示，在不执行ML模型同步的情况下，S1203具体实现为S1203a：

S1203a、第二网络设备通过第一网络设备向终端设备发送第一ML子模型全信息。相应的，终端设备通过第一网络设备接收来自第二网络设备的第一ML子模型全信息。

这里，第一ML子模型全信息是指能完整描述第一ML子模型的信息，例如，描述第一ML子模型的源代码、第一ML子模型的可执行程序代码、或第一ML子模型经过部分或全部编译的代码等。也就是说，终端设备与第二网络设备之间无需进行模型同步，第二网络设备通过第一网络设备向终端设备提供第一ML子模型全信息。这里，S1203a的具体实现过程如下：第二网络设备向第一网络设备发送第一ML子模型全信息。相应的，第一网络设备接收来自第二网络设备的第一ML子模型全信息。之后，第一网络设备向终端设备发送第一ML子模型全信息。相应的，终端设备接收来自第一网络设备的第一ML子模型全信息。

S1204、终端设备根据第一ML子模型，计算第一推理结果。

其中，S1204的具体实现过程可以参见S404的相关说明，此处不再赘述。

S1205、终端设备向第二网络设备发送第一推理结果。相应的，第二网络设备接收来自终端设备的第一推理结果。

这里，第一推理结果是指完整的第一推理结果。S1205的具体实现过程可以参见图8中第三种情况的S802a的相关说明，此处不再赘述。

S1206、第二网络设备根据第一推理结果和目标ML子模型，计算目标推理结果。

其中，目标ML子模型至少包括ML模型的输出层，目标ML子模型的输入数据对应第一ML子模型的输出数据。例如，以图1中“第一ML子模型包括ML模型的输入层和隐含层第一层”为例，目标ML子模型包括ML模型的隐含层第二层、隐含层第三层和输出层。

其中，目标推理结果为ML模型的最终推理结果。

示例性的，第二网络设备将第一推理结果的全部信息输入至目标ML子模型，使用目标ML子模型执行隐含层第二层、隐含层第三层和输出层的处理，以得到目标推理结果。这里，S1206的具体实现过程可以参见S803的相关说明，此处不再赘述。

S1207、第二网络设备向终端设备发送目标推理结果。相应的，终端设备接收来自第二网络设备的目标推理结果。

这里，S1207的具体实现过程可以参见S804的相关说明，此处不再赘述。

需要说明的是，在上述步骤中，在第一网络设备和第二网络设备之间存在Xn接口的情况下，上述步骤中，第一网络设备与第二网络设备之间通过Xn接口传输相关信息。反之，在第一网络设备和第二网络设备之间不存在Xn接口的情况下，上述步骤中，第一网络设备与第二网络设备之间通过核心网设备传输相关信息。这里，相关信息可以例如但不限于如下信息：推理需求信息、第一ML子模型的信息。

下面，在终端设备执行RRC连接恢复过程或RRC连接重建立过程的情况下，本申请实施例提供的第四种协同推理方法也同样适用。与上述切换场景下的第四种协同推理方法相比，区别点包括如下说明：

第一，在通过CRB传输推理相关信息的情况下，关于“目标CRB理的配置过程”可以参见图10所示的步骤，此处不再赘述。

第二，“第二网络设备向终端设备提供第一ML子模型的信息”具体实现为图12中“RRC连接恢复/RRC连接重建立”框图所示的S1208：

S1208、第二网络设备向终端设备发送第一ML子模型的信息。相应的，终端设备接收来自第二网络设备的第一ML子模型的信息。

其中，第一ML子模型用于终端设备执行推理运算，以得到第一推理结果。这里，S1208的具体实现过程可以参见图6的相关说明，即由第二网络设备执行图6中第一网络设备的相关处理步骤，此处不再赘述。

在本申请实施例提供的第四种协同推理方法中，即使终端设备从第一网络设备切换到第二网络设备，或终端设备执行RRC连接恢复，或终端设备执行RRC连接重建立，在第一网络设备向第二网络设备发送推理需求信息的情况下，第二网络设备能够为终端设备确定第一ML子模型，以使终端设备得到第一推理结果。终端设备得到第一推理结果之后，能够向第二网络设备发送第一推理结果的全部信息。第二网络设备能够结合目标ML子模型对第一推理结果的全部信息进行运算，以得到目标推理结果，再提供给终端设备，使得终端设备无需执行完整的推理运算，降低了终端设备获取目标推理结果的时延。同样地，终端设备向网络设备提供的是ML模型计算的中间结果而不是ML模型的输入数据，降低了“数据隐私暴露”的风险，提高了终端设备数据的安全性。

以上均是以“终端设备和网络设备”之间的交互过程为例，对本申请实施例协同推理方法进行的描述。下面，再对“接入网设备实现为分离式架构”的情况进行描述。

在本申请实施例中，终端设备向第一DU提供推理相关的信息(如第一推理结果)，并接收来自第一DU的目标推理结果。这里，ML模型包括第一ML子模型和目标ML子模型。在终端设备侧，用于执行推理的模型描述为“第一ML子模型”，得到的推理结果描述为“第一推理结果”。在第一DU侧，用于执行推理的模型描述为“目标ML子模型”，得到的推理结果描述为“目标推理结果”。目标推理结果是ML模型的最终的推理结果。在接入网设备实现为分离式架构的场景下，CU、CU-CP和DAM单元三者中的至少一种，描述为“目标单元”。

本申请实施例提供第五种协同推理方法，该协同推理方法应用在机器学习过程中，具体实现过程可以参见图4所示的步骤，即由第一DU执行第一网络设备的相关步骤。除此之外，与上述图4所示的第一种协同推理方法相比，区别点包括如下说明：

第一，在“接入网设备实现为分离式架构”的场景下，终端设备与目标单元之间的CRB描述为“第一CRB”。“配置第一CRB”的具体过程如图14所示：

S1400a、目标单元确定第一CRB的配置信息。

其中，关于“第一CRB的配置信息”的说明可以参见S400a的相关说明，此处不再赘述。

S1400b、目标单元通过第一DU向终端设备发送第一CRB的配置信息。相应的，终端设备通过第一DU接收来自目标单元的第一CRB的配置信息。

示例性的，目标单元向第一DU发送第一CRB的配置信息。相应的，第一DU接收来自目标单元的第一CRB的配置信息。之后，第一DU向终端设备发送第一CRB的配置信息。相应的，终端设备接收来自第一DU的第一CRB的配置信息。

S1400c、终端设备根据第一CRB的配置信息，配置第一CRB。

其中，S1400c的具体实现过程可以参见S400c的相关说明，此处不再赘述。

第二，在推理相关的信息(如推理需求信息、第一推理结果的全部信息)传输过程中，若终端设备向第一DU发送信息，则具体实现过程存在如下两种方式：

方式一：终端设备直接向第一DU发送信息。

方式二：终端设备通过目标单元向第一DU发送信息。在这种方式下，终端设备通过RRC消息向目标单元发送信息。相应的，目标单元接收来自终端设备的RRC消息。其中，终端设备向第一DU发送的信息承载于RRC消息。之后，目标单元确定RRC消息中承载的信息。目标单元向第一DU发送RRC消息中承载的信息。相应的，第一DU接收来自目标单元的信息。这里，以终端设备向第一DU发送推理需求信息为例，对“终端设备向第一DU发送信息”的过程进行说明：终端设备通过RRC消息向目标单元发送推理需求信息。相应的，目标单元接收来自终端设备的RRC消息。之后，目标单元确定RRC消息中承载的推理需求信息。目标单元向第一DU发送推理需求信息。相应的，第一DU接收来自目标单元的推理需求信息。

可选的，在终端设备配置第一CRB的情况下，终端设备通过第一CRB向目标单元发送信息(如推理需求信息、第一推理结果的全部信息)。相应的，目标单元通过第一CRB接收来自终端设备的信息。

若第一DU向终端设备发送信息(如第一ML子模型的信息、目标推理结果)，则具体实现过程存在如下两种方式：

方式一：第一DU直接向终端设备发送信息。

方式二：第一DU通过目标单元向终端设备发送信息。在这种情况下，第一DU向目标单元发送信息。相应的，目标单元接收来自第一DU的信息。之后，目标单元通过RRC消息向终端设备发送信息。相应的，终端设备接收来自目标单元的RRC消息。其中，RRC消息承载第一DU向终端设备发送的信息。这里，以第一DU向终端设备发送目标推理结果为例，对“第一DU向终端设备发送目标推理结果”的过程进行说明：第一DU向目标单元发送目标推理结果。相应的，目标单元接收来自第一DU的目标推理结果。之后，目标单元通过RRC消息向终端设备发送目标推理结果。相应的，终端设备接收来自目标单元的RRC消息。其中，RRC消息承载目标推理结果。

可选的，在终端设备配置第一CRB的情况下，目标单元通过第一CRB向终端设备发送信息(如第一ML子模型的信息、目标推理结果)。相应的，终端设备通过第一CRB接收来自目标单元的信息。

本申请实施例提供的第五种协同推理方法，终端设备采用第一ML子模型执行部分推理运算，以得到第一推理结果，向第一DU提供第一推理结果。第一DU能够结合目标ML子模型对第一推理结果的全部信息进行运算，以得到目标推理结果，再提供给终端设备，使得终端设备无需执行完整的推理运算，降低了终端设备获取目标推理结果的时延。同样地，终端设备向DU提供的是ML模型计算的中间结果而不是ML模型的输入数据，降低了“数据隐私暴露”的风险，提高了终端设备数据的安全性。

另外，在推理相关的信息(如推理需求信息、第一推理结果的全部信息)传输过程中，若终端设备发生切换，即终端设备由第一DU切换至第二DU，则终端设备接收来自第二DU的目标推理结果。此种情况下，本申请实施例协同推理方法的具体实现过程可以参见图8、图11或图12所示的处理步骤，即由第一DU执行第一网络设备的处理步骤，由第二DU执行第二网络设备的处理步骤。这里，在实现为图12所示的处理步骤的情况下，“第二DU向终端设备提供第一ML子模型的信息”具体实现为图12中“切换场景”的框图所示的S1203，即“第二DU通过第一DU向终端设备提供第一ML子模型的信息”。

需要说明的是，第一DU向第二DU发送相关信息(如目标ML子模型的信息、第一推理结果的第一部分信息、第一推理结果的全部信息、第二推理结果、目标推理结果)的情况下，具体实现方式可以例如但不限于如下两种方式：

方式一：第一DU直接向第二DU发送相关信息。相应的，第二DU直接接收来自第一DU的相关信息。

方式二：第一DU通过目标单元向第二DU发送相关信息。相应的，第二DU通过目标单元接收来自第一DU的相关信息。

这里，在第一DU向目标单元提供相关信息的情况下，目标单元向第二DU发送相关信息。以目标单元实现为CU为例，若第一DU和第二DU对应同一CU，即第一DU和第二DU均与同一CU存在连接的接口，则第一DU通过F1接口向目标单元发送相关信息，目标单元接收到相关信息之后，通过F1接口向第二DU发送相关信息。这里，若第一DU和第二DU对应不同CU，即第一DU对应第一CU，第二DU对应第二CU，则第一DU通过F1接口向第一CU发送相关信息，第一CU通过Xn接口向第二CU所述发送相关信息，第二CU通过F1接口向第二DU发送相关信息。

进一步地，在方式二的情况下，以图8或图11所示的场景为例，在目标单元向第二DU发送第二目标指示信息的过程中，第二目标指示信息可以承载于终端设备上下文建立请求消息。终端设备上下文建立请求消息用于请求第二DU建立终端设备的上下文。可选的，在第二DU完成上下文的建立过程之后，第二DU向目标单元发送终端设备上下文建立响应消息。以图12所示的场景为例，在目标单元向第二DU发送推理需求信息的过程中，推理需求信息可以承载于终端设备上下文建立请求消息。在第二DU完成上下文的建立过程之后，第二DU向目标单元发送终端设备上下文建立响应消息。第一ML子模型的信息可以承载于终端设备上下文建立响应消息。

反之，第二DU向第一DU发送相关信息(如模型信息1、模型信息2、第一ML子模型的信息)的情况下，具体实现方式可以例如但不限于如下两种方式，即第二DU直接向第一DU发送相关信息。或者，第二DU通过目标单元向第一DU发送相关信息。

在上述步骤中，在目标单元实现为DAM单元的情况下，DAM单元可以与第一DU(或第二DU)传输信息，也可以通过CU与第一DU(或第二DU)传输信息，还可以通过CU-CP与第一DU(或第二DU)传输信息。目标单元和第一DU(或第二DU)可以采用已有的协议栈传输相关信息，也可以采用图15所示的协议栈传输相关信息。例如，目标单元和第一DU(或第二DU)之间的消息承载于c类型高层数据分析协议(high data analytics protocol type c，HDAPc)消息。HDAPc协议支持目标单元和第一DU(或第二DU)之间的计算数据传输(如数据分割、数据排序)，以及计算数据安全(如数据完整性保护、数据加密、数据解密)等功能。HDAPc消息可承载在F1AP消息中。

这里，图15示出了DU和目标单元之间的通信协议栈，该协议栈用于DU和目标单元之间传输推理运算的相关信息。该协议栈主要包括HDAPc层、F1应用协议(F1 applicationprotocol，F1AP)层、SCTP层、IP层、L2层和L1层。

上述主要从各个网元之间交互的角度对本申请实施例提供的方案进行了介绍。相应的，本申请实施例还提供了通信装置，该通信装置可以为上述方法实施例中的网元，或者包含上述网元的装置，或者为可用于网元的部件。可以理解的是，该通信装置为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

图16示出了一种通信装置1600的结构示意图。该通信装置1600包括通信单元1603和处理单元1602。

在终端设备与网络设备之间的交互过程中，比如，以通信装置1600为上述方法实施例中图4(或图8、图11、图12)的终端设备为例，处理单元1602用于根据第一机器学习ML子模型，确定第一推理结果。其中，第一ML子模型为ML模型中的一部分。通信单元1603用于发送第一推理结果。通信单元1603还用于接收目标推理结果。其中，目标推理结果是基于第一推理结果确定的ML模型的推理结果。

在一种可能的设计中，在通信装置1600确定第一推理结果之前接入第一网络设备的情况下，通信单元1603具体用于：向第一网络设备发送第一推理结果的全部信息，以及接收来自第一网络设备的目标推理结果，其中，目标推理结果是基于第一推理结果的全部信息确定的ML模型的推理结果。

在一种可能的设计中，通信单元1603还用于：接收来自第一网络设备的第一ML子模型的信息。

在一种可能的设计中，第一ML子模型的信息包括第一目标指示信息。通信单元1603还用于：接收来自第一网络设备的第一模型信息，其中，第一模型信息包括第一候选指示信息与第一切分位置之间的对应关系，第一候选指示信息和第一切分位置均至少为一个；一个第一候选指示信息指示对ML模型进行切分，且对ML模型进行切分的位置是与一个第一候选指示信息存在对应关系的第一切分位置。处理单元1602还用于根据第一候选指示信息与第一切分位置之间的对应关系，以及第一目标指示信息，确定第一ML子模型。

在一种可能的设计中，通信单元1603还用于：向第一网络设备发送推理需求信息，其中，推理需求信息包括通信装置1600获取目标推理结果的时间信息；推理需求信息用于确定第一ML子模型的信息。

在一种可能的设计中，在通信装置1600发送第一推理结果之前接入第一网络设备，并在通信装置1600发送第一推理结果的过程中接入第二网络设备情况下，通信单元1603具体用于：向第一网络设备发送第一推理结果的第一部分信息，以及向第二网络设备发送第一推理结果的第二部分信息。通信单元1603具体用于：接收来自第二网络设备的目标推理结果，其中，目标推理结果是基于第一部分信息和第二部分信息确定的ML模型的推理结果。

在一种可能的设计中，在通信装置1600发送第一推理结果之前接入第一网络设备，并在通信装置1600发送第一推理结果之后且接收目标推理结果之前接入第二网络设备的情况下，通信单元1603具体用于：向第一网络设备发送第一推理结果的全部信息，以及接收来自第二网络设备的目标推理结果，其中，目标推理结果是基于第一推理结果的全部信息确定的ML模型的推理结果。

在一种可能的设计中，在通信装置1600发送第一推理结果之前接入第二网络设备的情况下，通信单元1603具体用于：向第二网络设备发送第一推理结果的全部信息，以及接收来自第二网络设备的目标推理结果，其中，目标推理结果是基于第一推理结果的全部信息确定的ML模型的推理结果。

在一种可能的设计中，在通信装置1600确定第一推理结果之前接入第一网络设备的情况下，通信单元1603还用于：接收来自第一网络设备的第一ML子模型的信息。

在一种可能的设计中，第一ML子模型的信息包括第一目标指示信息。通信单元1603还用于：接收来自第一网络设备的第一模型信息，其中，第一模型信息包括第一候选指示信息与第一切分位置之间的对应关系；第一候选指示信息和第一切分位置均至少为一个；一个第一候选指示信息指示对ML模型进行切分，且对ML模型进行切分的位置是与一个第一候选指示信息存在对应关系的第一切分位置。处理单元1602还用于根据第一候选指示信息与第一切分位置之间的对应关系，以及第一目标指示信息，确定第一ML子模型。

在一种可能的设计中，在通信装置1600确定第一推理结果之前接入第二网络设备的情况下，通信单元1603具体用于：向第二网络设备发送第一推理结果的全部信息，以及接收来自第二网络设备的目标推理结果，其中，目标推理结果是基于第一推理结果的全部信息确定的ML模型的推理结果。

在一种可能的设计中，通信单元1603还用于：接收来自第一网络设备的第一ML子模型的信息。其中，目标网络设备为第一网络设备或第二网络设备。

在一种可能的设计中，第一ML子模型的信息包括第一目标指示信息。通信单元1603还用于：接收来自第一网络设备的第一模型信息，其中，第一模型信息包括第一候选指示信息与第一切分位置之间的对应关系；第一候选指示信息和第一切分位置均至少为一个；一个第一候选指示信息指示对ML模型进行切分，且对ML模型进行切分的位置是与一个第一候选指示信息存在对应关系的第一切分位置；处理单元1602还用于根据第一候选指示信息与第一切分位置之间的对应关系，以及第一目标指示信息，确定第一ML子模型。

在一种可能的设计中，通信单元1603还用于：接收来自第二网络设备的第一ML子模型的信息。其中，目标网络设备为第一网络设备或第二网络设备。

在一种可能的设计中，第一ML子模型的信息包括第一目标指示信息。通信单元1603还用于：接收来自第二网络设备的第一模型信息，其中，第一模型信息包括第一候选指示信息与第一切分位置之间的对应关系；第一候选指示信息和第一切分位置均至少为一个；一个第一候选指示信息指示对ML模型进行切分，且对ML模型进行切分的位置是与一个第一候选指示信息存在对应关系的第一切分位置；处理单元1602还用于根据第一候选指示信息与第一切分位置之间的对应关系，以及第一目标指示信息，确定第一ML子模型。

在终端设备与网络设备之间的交互过程中，比如，以通信装置1600为上述方法实施例中图8或图11的第一网络设备为例，通信单元1603用于接收来自终端设备的第一推理信息。其中，第一推理信息包括第一推理结果的全部信息或部分信息，第一推理结果为第一机器学习ML子模型的推理结果，第一ML子模型为ML模型中的一部分。通信单元1603还用于向第二网络设备发送第二推理信息。其中，第二推理信息用于确定ML模型的目标推理结果，或第二推理信息为目标推理结果。处理单元1602用于基于第一推理信息确定第二推理信息。

在一种可能的设计中，处理单元1602还用于确定第一ML子模型的信息。通信单元1603还用于向终端设备发送第一ML子模型的信息。

在一种可能的设计中，通信单元1603还用于接收来自终端设备的推理需求信息。其中，推理需求信息包括ML模型的标识和终端设备获取目标推理结果的时间信息。处理单元1602具体用于：根据推理需求信息确定第一ML子模型的信息。

在一种可能的设计中，第一ML子模型的信息包括第一目标指示信息。通信单元1603还用于向终端设备发送第一模型信息。其中，第一模型信息包括第一候选指示信息与第一切分位置之间的对应关系。第一候选指示信息和第一切分位置均至少为一个；一个第一候选指示信息指示对ML模型进行切分，且对ML模型进行切分的位置是与一个第一候选指示信息存在对应关系的第一切分位置。第一模型信息和第一目标指示信息用于终端设备确定第一ML子模型。

在一种可能的设计中，第一推理信息包括第一推理结果的全部信息。处理单元1602还用于根据第一推理结果的全部信息和第二ML子模型，确定目标推理结果。其中，第二推理信息为目标推理结果，第二ML子模型的输入数据对应第一ML子模型的输出数据。

在一种可能的设计中，第一推理信息与第二推理信息相同。通信单元1603还用于向第二网络设备发送目标ML子模型的信息。其中，目标ML子模型的输入数据对应第一ML子模型的输出数据。目标ML子模型用于第二网络设备确定目标推理结果。

在一种可能的设计中，第一推理信息包括第一推理结果的全部信息。处理单元1602还用于根据第一推理结果的全部信息和第二ML子模型，确定第二推理结果。其中，第二推理信息为第二推理结果，第二ML子模型的输入数据对应第一ML子模型的输出数据。

在一种可能的设计中，通信单元1603还用于向第二网络设备发送目标ML子模型的信息。其中，目标ML子模型的输入数据对应第二ML子模型的输出数据。目标ML子模型用于第二网络设备确定目标推理结果。

在一种可能的设计中，目标ML子模型的信息包括第二目标指示信息。通信单元1603还用于接收来自第二网络设备的第二模型信息。其中，第二模型信息包括第二候选指示信息与第二切分位置之间的对应关系。第二候选指示信息和第二切分位置均至少为一个；一个第二候选指示信息指示对ML模型进行切分，且对ML模型进行切分的位置是与一个第二候选指示信息存在对应关系的第二切分位置。处理单元1602还用于根据第二候选指示信息与第二切分位置之间的对应关系，以及目标ML子模型，从第二候选指示信息中确定第二目标指示信息。

在终端设备与网络设备之间的交互过程中，比如，以通信装置1600为上述方法实施例中图4中的第一网络设备、图8中的第二网络设备、或图11中的第二网络设备为例，通信单元1603用于获取第三推理信息。其中，第三推理信息是基于第一推理结果的全部信息确定的，第一推理结果是基于第一机器学习ML子模型运算后的推理结果，第一ML子模型为ML模型中的一部分。通信单元1603还用于向终端设备发送目标推理结果，其中，目标推理结果是基于第三推理信息确定的ML模型的推理结果。处理单元1602用于根据第三推理信息确定目标推理结果。

在一种可能的设计中，在通信装置1600获取第三推理信息之前终端设备接入通信装置1600情况下，第三推理信息为第一推理结果的全部信息；通信单元1603具体用于：接收来自终端设备的第一推理结果的全部信息。处理单元1602还用于根据第一推理结果的全部信息和目标ML子模型，确定目标推理结果，其中，目标ML子模型的输入数据对应第一ML子模型的输出数据。

在一种可能的设计中，通信单元1603具体用于：向终端设备发送第一ML子模型的信息。

在一种可能的设计中，通信单元1603还用于：接收来自终端设备的推理需求信息，其中，推理需求信息包括终端设备获取目标推理结果的时间信息。处理单元1602还用于根据推理需求信息确定第一ML子模型的信息。

在一种可能的设计中，在通信装置1600获取第三推理信息的过程中终端设备接入通信装置1600的情况下，第三推理信息为第一推理结果的全部信息；通信单元1603具体用于：接收来自终端设备的第一推理结果的第一部分信息，以及接收来自第一网络设备的第一推理结果的第二部分信息。处理单元1602还用于根据第一部分信息、第二部分信息和目标ML子模型，确定目标推理结果，其中，目标ML子模型的输入数据对应第一ML子模型的输出数据。

在一种可能的设计中，在通信装置1600获取第三推理信息之后终端设备接入通信装置1600的情况下，第三推理信息为第一推理结果的全部信息。通信单元1603具体用于：接收来自第一网络设备的第一推理结果的全部信息。处理单元1602还用于根据第一推理结果的全部信息和目标ML子模型，确定目标推理结果，其中，目标ML子模型的输入数据对应第一ML子模型的输出数据。

在一种可能的设计中，在通信装置1600获取第三推理信息之前终端设备由第一网络设备接入通信装置1600的情况下，第三推理信息为第一推理结果的全部信息。通信单元1603具体用于：接收来自终端设备的第一推理结果的全部信息。处理单元1602还用于根据第一推理结果的全部信息和目标ML子模型，确定目标推理结果，其中，目标ML子模型的输入数据对应第一ML子模型的输出数据。

在一种可能的设计中，第三推理信息为第二推理结果，第二推理结果是基于第一推理结果的全部信息确定的第二ML子模型的推理结果，第二ML子模型的输入数据对应第一ML子模型的输出数据。通信单元1603具体用于：接收来自第一网络设备的第二推理结果。处理单元1602还用于根据第二推理结果和目标ML子模型，确定目标推理结果，其中，目标ML子模型的输入数据对应第二ML子模型的输出数据。

在一种可能的设计中，在通信装置1600获取目标ML子模型的信息之后，终端设备接入通信装置1600的情况下，通信单元1603具体用于：接收来自第一网络设备的目标ML子模型的信息。

在一种可能的设计中，目标ML子模型的信息包括第二目标指示信息。通信单元1603还用于：向第一网络设备发送第二模型信息，其中，第二模型信息包括第二候选指示信息与第二切分位置之间的对应关系；第二候选指示信息和第二切分位置均至少为一个；一个第二候选指示信息指示对ML模型进行切分，且对ML模型进行切分的位置是与一个第二候选指示信息存在对应关系的第二切分位置；第二模型信息用于第一网络设备确定第二目标指示信息。

在一种可能的设计中，第三推理信息为目标推理结果。通信单元1603具体用于：接收来自第一网络设备的目标推理结果。

在一种可能的设计中，在通信装置1600发送第一ML子模型的信息的过程中，通信单元1603具体用于：向终端设备发送第一ML子模型的信息；或者，向第一网络设备发送第一ML子模型的信息。

在一种可能的设计中，通信单元1603还用于：接收来自第一网络设备的推理需求信息，其中，推理需求信息包括终端设备获取目标推理结果的时间信息。处理单元1602还用于根据推理需求信息确定第一ML子模型的信息。

在接入网设备实现为分离式架构的场景下，比如，以通信装置1600为上述方法实施例中图4的终端设备为例，处理单元1602用于根据第一机器学习ML子模型，确定第一推理结果。其中，第一ML子模型为ML模型中的一部分。通信单元1603用于发送第一推理结果。通信单元1603还用于接收目标推理结果。其中，目标推理结果是基于第一推理结果确定的ML模型的推理结果。

在一种可能的设计中，在通信装置1600确定第一推理结果之前接入第一DU的情况下，通信单元1603具体用于：向第一DU发送第一推理结果的全部信息，以及接收来自第一DU的目标推理结果，其中，目标推理结果是基于第一推理结果的全部信息确定的ML模型的推理结果。

在一种可能的设计中，通信单元1603还用于：接收来自第一DU的第一ML子模型的信息。

在一种可能的设计中，第一ML子模型的信息包括第一目标指示信息。通信单元1603还用于：接收来自第一DU的第一模型信息，其中，第一模型信息包括第一候选指示信息与第一切分位置之间的对应关系；第一候选指示信息和第一切分位置均至少为一个；一个第一候选指示信息指示对ML模型进行切分，且对ML模型进行切分的位置是与一个第一候选指示信息存在对应关系的第一切分位置。处理单元1602还用于根据第一候选指示信息与第一切分位置之间的对应关系，以及第一目标指示信息，确定第一ML子模型。

在一种可能的设计中，通信单元1603还用于：向第一DU发送推理需求信息，其中，推理需求信息包括通信装置1600获取目标推理结果的时间信息；推理需求信息用于确定第一ML子模型的信息。

在一种可能的设计中，在通信装置1600发送第一推理结果之前接入第一DU，并在通信装置1600发送第一推理结果的过程中接入第二DU情况下，通信单元1603具体用于：向第一DU发送第一推理结果的第一部分信息，以及向第二DU发送第一推理结果的第二部分信息。通信单元1603具体用于：接收来自第二DU的目标推理结果，其中，目标推理结果是基于第一部分信息和第二部分信息确定的ML模型的推理结果。

在一种可能的设计中，在通信装置1600发送第一推理结果之前接入第一DU，并在通信装置1600发送第一推理结果之后且接收目标推理结果之前接入第二DU的情况下，通信单元1603具体用于：向第一DU发送第一推理结果的全部信息，以及接收来自第二DU的目标推理结果，其中，目标推理结果是基于第一推理结果的全部信息确定的ML模型的推理结果。

在一种可能的设计中，在通信装置1600发送第一推理结果之前接入第二DU的情况下，通信单元1603具体用于：向第二DU发送第一推理结果的全部信息，以及接收来自第二DU的目标推理结果，其中，目标推理结果是基于第一推理结果的全部信息确定的ML模型的推理结果。

在一种可能的设计中，在通信装置1600确定第一推理结果之前接入第一DU的情况下，通信单元1603还用于：接收来自第一DU的第一ML子模型的信息。

在一种可能的设计中，在通信装置1600确定第一推理结果之前接入第二DU的情况下，通信单元1603具体用于：向第二DU发送第一推理结果的全部信息，以及接收来自第二DU的目标推理结果，其中，目标推理结果是基于第一推理结果的全部信息确定的ML模型的推理结果。

在一种可能的设计中，在通信装置1600获取第一ML子模型的信息的过程中，通信单元1603具体用于：接收来自第一DU的第一ML子模型的信息。

在接入网设备实现为分离式架构的场景下，比如，在第一DU执行图8或图11中第一网络设备的步骤的情况下，以通信装置1600为上述方法实施例中的第一DU为例，通信单元1603用于接收来自终端设备的第一推理信息。其中，第一推理信息包括第一推理结果的全部信息或部分信息，第一推理结果为第一机器学习ML子模型的推理结果，第一ML子模型为ML模型中的一部分。通信单元1603还用于向第二DU发送第二推理信息。其中，第二推理信息用于确定ML模型的目标推理结果，或第二推理信息为目标推理结果。处理单元1602用于基于第一推理信息确定第二推理信息。

在一种可能的设计中，第一ML子模型的信息包括第一目标指示信息。通信单元1603还用于向终端设备发送第一模型信息。其中，第一模型信息包括第一候选指示信息与第一切分位置之间的对应关系。第一候选指示信息和第一切分位置均至少为一个；一个第一候选指示信息指示对ML模型进行切分，且对ML模型进行切分的位置是与一个第一候选指示信息存在对应关系的第一切分位置；第一模型信息和第一目标指示信息用于终端设备确定第一ML子模型。

在一种可能的设计中，第一推理信息与第二推理信息相同。通信单元1603还用于向第二DU发送目标ML子模型的信息。其中，目标ML子模型的输入数据对应第一ML子模型的输出数据。目标ML子模型用于第二DU确定目标推理结果。

在一种可能的设计中，通信单元1603还用于向第二DU发送目标ML子模型的信息。其中，目标ML子模型的输入数据对应第二ML子模型的输出数据。目标ML子模型用于第二DU确定目标推理结果。

在一种可能的设计中，目标ML子模型的信息包括第二目标指示信息。通信单元1603还用于接收来自第二DU的第二模型信息。其中，第二模型信息包括第二候选指示信息与第二切分位置之间的对应关系。第二候选指示信息和第二切分位置均至少为一个；一个第二候选指示信息指示对ML模型进行切分，且对ML模型进行切分的位置是与一个第二候选指示信息存在对应关系的第二切分位置。处理单元1602还用于根据第二候选指示信息与第二切分位置之间的对应关系，以及目标ML子模型，从第二候选指示信息中确定第二目标指示信息。

比如，在第二DU执行图4中第一网络设备、或图8中第二网络设备、或图11中第二网络设备的步骤的情况下，以通信装置1600为上述方法实施例中的第二DU为例，通信单元1603用于获取第三推理信息。其中，第三推理信息是基于第一推理结果的全部信息确定的，第一推理结果是基于第一机器学习ML子模型运算后的推理结果，第一ML子模型为ML模型中的一部分。通信单元1603还用于向终端设备发送目标推理结果，其中，目标推理结果是基于第三推理信息确定的ML模型的推理结果。处理单元1602用于根据第三推理信息确定目标推理结果。

在一种可能的设计中，在通信装置1600获取第三推理信息的过程中终端设备接入通信装置1600的情况下，第三推理信息为第一推理结果的全部信息；通信单元1603具体用于：接收来自终端设备的第一推理结果的第一部分信息，以及接收来自第一DU的第一推理结果的第二部分信息。处理单元1602还用于根据第一部分信息、第二部分信息和目标ML子模型，确定目标推理结果，其中，目标ML子模型的输入数据对应第一ML子模型的输出数据。

在一种可能的设计中，在通信装置1600获取第三推理信息之后终端设备接入通信装置1600的情况下，第三推理信息为第一推理结果的全部信息。通信单元1603具体用于：接收来自第一DU的第一推理结果的全部信息。处理单元1602还用于根据第一推理结果的全部信息和目标ML子模型，确定目标推理结果，其中，目标ML子模型的输入数据对应第一ML子模型的输出数据。

在一种可能的设计中，第三推理信息为第二推理结果，第二推理结果是基于第一推理结果的全部信息确定的第二ML子模型的推理结果，第二ML子模型的输入数据对应第一ML子模型的输出数据。通信单元1603具体用于：接收来自第一DU的第二推理结果。处理单元1602还用于根据第二推理结果和目标ML子模型，确定目标推理结果，其中，目标ML子模型的输入数据对应第二ML子模型的输出数据。

在一种可能的设计中，在通信装置1600获取目标ML子模型的信息之后，终端设备接入通信装置1600的情况下，通信单元1603具体用于：接收来自第一DU的目标ML子模型的信息。

在一种可能的设计中，目标ML子模型的信息包括第二目标指示信息。通信单元1603还用于：向第一DU发送第二模型信息，其中，第二模型信息包括第二候选指示信息与第二切分位置之间的对应关系；第二候选指示信息和第二切分位置均至少为一个；一个第二候选指示信息指示对ML模型进行切分，且对ML模型进行切分的位置是与一个第二候选指示信息存在对应关系的第二切分位置；第二模型信息用于第一DU确定第二目标指示信息。

在一种可能的设计中，第三推理信息为目标推理结果。通信单元1603具体用于：接收来自第一DU的目标推理结果。

在一种可能的设计中，在通信装置1600发送第一ML子模型的信息的过程中，通信单元1603具体用于：向第一DU发送第一ML子模型的信息。

在一种可能的设计中，通信单元1603还用于：接收来自第一DU的推理需求信息，其中，推理需求信息包括终端设备获取目标推理结果的时间信息。处理单元1602还用于根据推理需求信息确定第一ML子模型的信息。

其中，上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述，在此不再赘述。

应理解，本申请实施例中的处理单元1602可以由处理器或处理器相关电路组件实现，通信单元1603可以由收发器或收发器相关电路组件实现。

作为一种可能的实现形式，本申请实施例提供一种芯片，该芯片包括逻辑电路和输入输出接口。其中，输入输出接口用于与芯片之外的模块通信，逻辑电路用于执行上述方法实施例中终端设备上除了收发操作之外的其他操作。

比如，以芯片实现为上述方法实施例中图4的终端设备的功能为例，输入输出接口用于输出终端设备侧的S401和S405中的信息，输入输出接口还用于输入终端设备侧的S403和S407中的信息，和/或输入输出接口还用于执行本申请实施例中终端设备侧的其他收发步骤。逻辑电路用于执行终端设备侧中的S404，和/或逻辑电路还用于执行本申请实施例中终端设备侧的其他处理步骤。

再如，以芯片实现为上述方法实施例中图8的终端设备的功能为例，输入输出接口用于输出终端设备侧的S802a和S802c中的信息，输入输出接口还用于输入终端设备侧的S804中的信息，和/或输入输出接口还用于执行本申请实施例中终端设备侧的其他收发步骤。逻辑电路用于执行终端设备侧中的其他处理步骤。

又如，以芯片实现为上述方法实施例中图11的终端设备的功能为例，输入输出接口用于输出终端设备侧的S1102中的信息，输入输出接口还用于输入终端设备侧的S1104中的信息，和/或输入输出接口还用于执行本申请实施例中终端设备侧的其他收发步骤。逻辑电路用于执行本申请实施例中终端设备侧的其他处理步骤。

又如，以芯片实现为上述方法实施例中图12的终端设备的功能为例，输入输出接口用于输入终端设备侧的S1203、S1207、S1208中的信息，输入输出接口还用于输出终端设备侧的S1205中的信息，和/或输入输出接口还用于执行本申请实施例中终端设备侧的其他收发步骤。逻辑电路用于执行终端设备侧中的S1204，和/或逻辑电路还用于执行本申请实施例中终端设备侧的其他处理步骤。

比如，以芯片实现为上述方法实施例中图4的第一网络设备的功能为例，输入输出接口用于输入第一网络设备侧的S401、S405中的信息，输入输出接口还用于输出第一网络设备侧的S403、S407中的信息，和/或输入输出接口还用于执行本申请实施例中第一网络设备侧的其他收发步骤。逻辑电路用于执行第一网络设备侧中的S402、S406，和/或逻辑电路还用于执行本申请实施例中第一网络设备侧的其他处理步骤。

再如，以芯片实现为上述方法实施例中图8的第一网络设备的功能为例，输入输出接口用于输入第一网络设备侧的S802a中的信息，输入输出接口还用于输出第一网络设备侧的S801、S802b中的信息，和/或输入输出接口还用于执行本申请实施例中第一网络设备侧的其他收发步骤。逻辑电路用于执行第一网络设备侧的其他处理步骤。

又如，以芯片实现为上述方法实施例中图11的第一网络设备的功能为例，输入输出接口用于输入第一网络设备侧的S1102中的信息，输入输出接口还用于输出第一网络设备侧的S1101、S1103b中的信息，和/或输入输出接口还用于执行本申请实施例中第一网络设备侧的其他收发步骤。逻辑电路用于执行第一网络设备侧中的S1103a，和/或逻辑电路还用于执行本申请实施例中第一网络设备侧的其他处理步骤。

又如，以芯片实现为上述方法实施例中图12的第一网络设备的功能为例，输入输出接口用于输入第一网络设备侧的S1203中的信息，输入输出接口用于输出第一网络设备侧的S1201、S1203中的信息，和/或输入输出接口还用于执行本申请实施例中第一网络设备侧的其他收发步骤。逻辑电路用于执行本申请实施例中第一网络设备侧的其他处理步骤。

又如，以芯片实现为上述方法实施例中图8的第二网络设备的功能为例，输入输出接口用于输入第二网络设备侧的S801、S802a、S802b中的信息，输入输出接口还用于输出第二网络设备侧的S804中的信息，和/或输入输出接口还用于执行本申请实施例中第二网络设备侧的其他收发步骤。逻辑电路用于执行第二网络设备侧的S803，和/或逻辑电路还用于执行其他处理步骤。

又如，以芯片实现为上述方法实施例中图11的第二网络设备的功能为例，输入输出接口用于输入第二网络设备侧的S1101、S1103b中的信息，输入输出接口还用于输出第二网络设备侧的S1104中的信息，和/或输入输出接口还用于执行本申请实施例中第二网络设备侧的其他收发步骤。逻辑电路用于执行第二网络设备侧中的S1103c，和/或逻辑电路还用于执行本申请实施例中第二网络设备侧的其他处理步骤。

又如，以芯片实现为上述方法实施例中图12的第二网络设备的功能为例，输入输出接口用于输入第二网络设备侧的S1201、S1205中的信息，输入输出接口还用于输出第二网络设备侧的S1203、S1207、S1208中的信息，和/或输入输出接口还用于执行本申请实施例中第二网络设备侧的其他收发步骤。逻辑电路用于执行本申请实施例中第二网络设备侧的S1202、S1206，和/或逻辑电路还用于执行本申请实施例中第二网络设备侧的其他处理步骤。

可选的，通信装置1600还可以包括存储单元1601，用于存储通信装置1600的程序代码和数据，数据可以包括不限于原始数据或者中间数据等。

其中，处理单元1602可以是处理器或控制器，例如可以是中央处理器(centralprocessing unit，CPU)，通用处理器，数字信号处理器(digital signal processor，DSP)，专用集成电路(application specific integrated circuit，ASIC)，现成可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等等。

通信单元1603可以是通信接口、收发器或收发电路等，其中，该通信接口是统称，在具体实现中，该通信接口可以包括多个接口，例如可以包括：第一接入网设备和第二接入网设备之间的接口和/或其他接口。

存储单元1601可以是存储器。

当处理单元1602为处理器，通信单元1603为通信接口，存储单元1601为存储器时，本申请实施例所涉及的通信装置1700可以为图17所示。

参阅图17所示，该通信装置1700包括：处理器1702、收发器1703、存储器1701。

其中，收发器1703可以为独立设置的发送器，该发送器可用于向其他设备发送信息，该收发器也可以为独立设置的接收器，用于从其他设备接收信息。该收发器也可以是将发送、接收信息功能集成在一起的部件，本申请实施例对收发器的具体实现不做限制。

可选的，通信装置1700还可以包括总线1704。其中，收发器1703、处理器1702以及存储器1701可以通过总线1704相互连接；总线1704可以是外设部件互连标准(peripheralcomponent interconnect，PCI)总线或扩展工业标准结构(extended industry standardarchitecture，EISA)总线等。所述总线1704可以分为地址总线、数据总线、控制总线等。为便于表示，图17中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

本领域普通技术人员可以理解：在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包括一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，数字视频光盘(digital video disc，DVD)、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络设备上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个功能单元独立存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘，硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，在本申请揭露的技术范围内的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种协同推理方法，其特征在于，包括：

终端设备根据第一机器学习ML子模型，确定第一推理结果，其中，所述第一ML子模型为ML模型中的一部分；

所述终端设备发送所述第一推理结果；

所述终端设备接收目标推理结果，其中，所述目标推理结果是基于所述第一推理结果确定的所述ML模型的推理结果。

2.根据权利要求1所述的方法，其特征在于，在所述终端设备确定所述第一推理结果之前接入第一网络设备的情况下，

所述终端设备发送所述第一推理结果，包括：

所述终端设备向所述第一网络设备发送所述第一推理结果的全部信息；

所述终端设备接收目标推理结果，包括：

所述终端设备接收来自所述第一网络设备的所述目标推理结果，其中，所述目标推理结果是基于所述第一推理结果的全部信息确定的所述ML模型的推理结果。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

所述终端设备接收来自所述第一网络设备的所述第一ML子模型的信息。

4.根据权利要求3所述的方法，其特征在于，所述第一ML子模型的信息包括第一目标指示信息，所述方法还包括：

所述终端设备接收来自所述第一网络设备的第一模型信息，其中，所述第一模型信息包括第一候选指示信息与第一切分位置之间的对应关系；所述第一候选指示信息和所述第一切分位置均至少为一个；一个第一候选指示信息指示对所述ML模型进行切分，且对所述ML模型进行切分的位置是与所述一个第一候选指示信息存在对应关系的第一切分位置；

所述终端设备根据所述第一候选指示信息与所述第一切分位置之间的对应关系，以及所述第一目标指示信息，确定所述第一ML子模型。

5.根据权利要求3或4所述的方法，其特征在于，所述方法还包括：

所述终端设备向所述第一网络设备发送推理需求信息，其中，所述推理需求信息包括所述终端设备获取所述目标推理结果的时间信息；所述推理需求信息用于确定所述第一ML子模型的信息。

6.根据权利要求1所述的方法，其特征在于，在所述终端设备发送所述第一推理结果之前接入第一网络设备，并在所述终端设备发送所述第一推理结果的过程中接入第二网络设备情况下，

所述终端设备发送所述第一推理结果，包括：

所述终端设备向所述第一网络设备发送所述第一推理结果的第一部分信息；

所述终端设备向所述第二网络设备发送所述第一推理结果的第二部分信息；

所述终端设备接收目标推理结果，包括：

所述终端设备接收来自所述第二网络设备的所述目标推理结果，其中，所述目标推理结果是基于所述第一部分信息和所述第二部分信息确定的所述ML模型的推理结果。

7.根据权利要求1所述的方法，其特征在于，在所述终端设备发送所述第一推理结果之前接入第一网络设备，并在所述终端设备发送所述第一推理结果之后且接收所述目标推理结果之前接入第二网络设备的情况下，

所述终端设备发送所述第一推理结果，包括：

所述终端设备接收目标推理结果，包括：

所述终端设备接收来自所述第二网络设备的所述目标推理结果，其中，所述目标推理结果是基于所述第一推理结果的全部信息确定的所述ML模型的推理结果。

8.根据权利要求1所述的方法，其特征在于，在所述终端设备发送所述第一推理结果之前接入第二网络设备的情况下，

所述终端设备发送所述第一推理结果，包括：

所述终端设备向所述第二网络设备发送所述第一推理结果的全部信息；

所述终端设备接收目标推理结果，包括：

9.根据权利要求6至8任一项所述的方法，其特征在于，在所述终端设备确定所述第一推理结果之前接入第一网络设备的情况下，所述方法还包括：

10.根据权利要求9所述的方法，其特征在于，所述第一ML子模型的信息包括第一目标指示信息；所述方法还包括：

11.根据权利要求9或10所述的方法，其特征在于，所述方法还包括：

12.根据权利要求1所述的方法，其特征在于，在所述终端设备确定所述第一推理结果之前接入第二网络设备的情况下，

所述终端设备发送所述第一推理结果，包括：

所述终端设备接收目标推理结果，包括：

13.根据权利要求12所述的方法，其特征在于，在所述终端设备从第一网络设备切换至所述第二网络设备的情况下，所述方法还包括：

14.根据权利要求13所述的方法，其特征在于，所述第一ML子模型的信息包括第一目标指示信息；所述方法还包括：

15.根据权利要求12所述的方法，其特征在于，在所述终端设备基于无线资源控制RRC连接重建立或RRC连接恢复过程接入所述第二网络设备的情况下，所述方法还包括：

所述终端设备接收来自所述第二网络设备的所述第一ML子模型的信息。

16.根据权利要求15所述的方法，其特征在于，所述第一ML子模型的信息包括第一目标指示信息；所述方法还包括：

所述终端设备接收来自所述第二网络设备的第一模型信息，其中，所述第一模型信息包括第一候选指示信息与第一切分位置之间的对应关系；所述第一候选指示信息和所述第一切分位置均至少为一个；一个第一候选指示信息指示对所述ML模型进行切分，且对所述ML模型进行切分的位置是与所述一个第一候选指示信息存在对应关系的第一切分位置；

17.根据权利要求13至16任一项所述的方法，其特征在于，所述方法还包括：

所述终端设备向第一网络设备发送推理需求信息，其中，所述推理需求信息包括所述终端设备获取所述目标推理结果的时间信息；所述推理需求信息用于确定所述第一ML子模型的信息，所述第一网络设备是所述终端设备接入所述第二网络设备之前接入的网络设备。

18.根据权利要求1至17任一项所述的方法，其特征在于，所述第一ML子模型的输入数据为所述终端设备生成的数据。

19.一种协同推理方法，其特征在于，包括：

第一网络设备接收来自终端设备的第一推理信息，其中，所述第一推理信息包括第一推理结果的全部信息或部分信息，所述第一推理结果为第一机器学习ML子模型的推理结果，所述第一ML子模型为ML模型中的一部分；

所述第一网络设备向第二网络设备发送第二推理信息，其中，所述第二推理信息是基于所述第一推理信息确定的，所述第二推理信息用于确定所述ML模型的目标推理结果，或所述第二推理信息为所述目标推理结果。

20.根据权利要求19所述的方法，其特征在于，所述方法还包括：

所述第一网络设备确定所述第一ML子模型的信息；

所述第一网络设备向所述终端设备发送所述第一ML子模型的信息。

21.根据权利要求20所述的方法，其特征在于，所述方法还包括：

所述第一网络设备接收来自所述终端设备的推理需求信息，其中，所述推理需求信息包括所述终端设备获取所述目标推理结果的时间信息；

所述第一网络设备确定所述第一ML子模型的信息，包括：

所述第一网络设备根据所述推理需求信息确定所述第一ML子模型的信息。

22.根据权利要求20或21所述的方法，其特征在于，所述第一ML子模型的信息包括第一目标指示信息；所述方法还包括：

所述第一网络设备向所述终端设备发送第一模型信息，其中，所述第一模型信息包括第一候选指示信息与第一切分位置之间的对应关系；所述第一候选指示信息和所述第一切分位置均至少为一个；一个第一候选指示信息指示对所述ML模型进行切分，且对所述ML模型进行切分的位置是与所述一个第一候选指示信息存在对应关系的第一切分位置；所述第一模型信息和所述第一目标指示信息用于所述终端设备确定所述第一ML子模型。

23.根据权利要求19至22任一项所述的方法，其特征在于，所述第一推理信息包括所述第一推理结果的全部信息；所述方法还包括：

所述第一网络设备根据所述第一推理结果的全部信息和目标ML子模型，确定所述目标推理结果，其中，所述第二推理信息为所述目标推理结果，所述目标ML子模型的输入数据对应所述第一ML子模型的输出数据。

24.根据权利要求19至22任一项所述的方法，其特征在于，所述第一推理信息包括所述第一推理结果的全部信息；所述方法还包括：

所述第一网络设备根据所述第一推理结果的全部信息和第二ML子模型，确定第二推理结果，其中，所述第二推理信息为所述第二推理结果，所述第二ML子模型的输入数据对应所述第一ML子模型的输出数据。

25.根据权利要求24所述的方法，其特征在于，所述方法还包括：

所述第一网络设备向所述第二网络设备发送目标ML子模型的信息；

其中，所述目标ML子模型的输入数据对应所述第二ML子模型的输出数据；所述目标ML子模型用于所述第二网络设备确定所述目标推理结果。

26.根据权利要求19至22任一项所述的方法，其特征在于，所述第一推理信息与所述第二推理信息相同；所述方法还包括：

其中，所述目标ML子模型的输入数据对应所述第一ML子模型的输出数据；所述目标ML子模型用于所述第二网络设备确定所述目标推理结果。

27.根据权利要求25或26所述的方法，其特征在于，所述目标ML子模型的信息包括第二目标指示信息；所述方法还包括：

所述第一网络设备接收来自所述第二网络设备的第二模型信息，其中，所述第二模型信息包括第二候选指示信息与第二切分位置之间的对应关系；所述第二候选指示信息和所述第二切分位置均至少为一个；一个第二候选指示信息指示对所述ML模型进行切分，且对所述ML模型进行切分的位置是与所述一个第二候选指示信息存在对应关系的第二切分位置；

所述第一网络设备根据所述第二候选指示信息与所述第二切分位置之间的对应关系，以及所述目标ML子模型，从所述第二候选指示信息中确定所述第二目标指示信息。

28.一种协同推理方法，其特征在于，包括：

第二网络设备获取第三推理信息，其中，所述第三推理信息是基于第一推理结果的全部信息确定的，所述第一推理结果是基于第一机器学习ML子模型运算后的推理结果，所述第一ML子模型为ML模型中的一部分；

所述第二网络设备向终端设备发送目标推理结果，其中，所述目标推理结果是基于所述第三推理信息确定的所述ML模型的推理结果。

29.根据权利要求28所述的方法，其特征在于，在所述第二网络设备获取所述第三推理信息之前所述终端设备接入所述第二网络设备情况下，所述第三推理信息为所述第一推理结果的全部信息；所述第二网络设备获取第三推理信息，包括：

所述第二网络设备接收来自所述终端设备的所述第一推理结果的全部信息；

所述方法还包括：

所述第二网络设备根据所述第一推理结果的全部信息和目标ML子模型，确定所述目标推理结果，其中，所述目标ML子模型的输入数据对应所述第一ML子模型的输出数据。

30.根据权利要求29所述的方法，其特征在于，所述第二网络设备发送所述第一ML子模型的信息，包括：

所述第二网络设备向所述终端设备发送所述第一ML子模型的信息。

31.根据权利要求30所述的方法，其特征在于，所述方法还包括：

所述第二网络设备接收来自所述终端设备的推理需求信息，其中，所述推理需求信息包括所述终端设备获取所述目标推理结果的时间信息；

所述第二网络设备根据所述推理需求信息确定所述第一ML子模型的信息。

32.根据权利要求28所述的方法，其特征在于，在所述第二网络设备获取所述第三推理信息的过程中所述终端设备接入所述第二网络设备的情况下，所述第三推理信息为所述第一推理结果的全部信息；所述第二网络设备获取第三推理信息，包括：

所述第二网络设备接收来自所述终端设备的所述第一推理结果的第一部分信息；

所述第二网络设备接收来自第一网络设备的所述第一推理结果的第二部分信息；

所述方法还包括：

所述第二网络设备根据所述第一部分信息、所述第二部分信息和目标ML子模型，确定所述目标推理结果，其中，所述目标ML子模型的输入数据对应所述第一ML子模型的输出数据。

33.根据权利要求28所述的方法，其特征在于，在所述第二网络设备获取所述第三推理信息之后所述终端设备接入所述第二网络设备的情况下，所述第三推理信息为所述第一推理结果的全部信息；所述第二网络设备获取第三推理信息，包括：

所述第二网络设备接收来自第一网络设备的所述第一推理结果的全部信息；

所述方法还包括：

34.根据权利要求28所述的方法，其特征在于，在所述第二网络设备获取所述第三推理信息之前所述终端设备由第一网络设备接入所述第二网络设备的情况下，所述第三推理信息为所述第一推理结果的全部信息；所述第二网络设备获取第三推理信息，包括：

所述方法还包括：

35.根据权利要求28所述的方法，其特征在于，所述第三推理信息为第二推理结果，所述第二推理结果是基于所述第一推理结果的全部信息确定的第二ML子模型的推理结果，所述第二ML子模型的输入数据对应所述第一ML子模型的输出数据；

所述第二网络设备获取第三推理信息，包括：

所述第二网络设备接收来自第一网络设备的所述第二推理结果；

所述方法还包括：

所述第二网络设备根据所述第二推理结果和目标ML子模型，确定所述目标推理结果，其中，所述目标ML子模型的输入数据对应所述第二ML子模型的输出数据。

36.根据权利要求32至35任一项所述的方法，其特征在于，在所述第二网络设备获取所述目标ML子模型的信息之后，所述终端设备接入所述第二网络设备的情况下，所述第二网络设备获取所述目标ML子模型的信息，包括：

所述第二网络设备接收来自所述第一网络设备的所述目标ML子模型的信息。

37.根据权利要求36所述的方法，其特征在于，所述目标ML子模型的信息包括第二目标指示信息；所述方法还包括：

所述第二网络设备向所述第一网络设备发送第二模型信息，其中，所述第二模型信息包括第二候选指示信息与第二切分位置之间的对应关系；所述第二候选指示信息和所述第二切分位置均至少为一个；一个第二候选指示信息指示对所述ML模型进行切分，且对所述ML模型进行切分的位置是与所述一个第二候选指示信息存在对应关系的第二切分位置；所述第二模型信息用于所述第一网络设备确定所述第二目标指示信息。

38.根据权利要求28所述的方法，其特征在于，所述第三推理信息为所述目标推理结果；

所述第二网络设备获取第三推理信息，包括：

所述第二网络设备接收来自第一网络设备的所述目标推理结果。

39.根据权利要求34所述的方法，其特征在于，所述方法还包括：

所述第二网络设备向所述终端设备发送所述第一ML子模型的信息；

或者，所述第二网络设备向第一网络设备发送所述第一ML子模型的信息。

40.根据权利要求39所述的方法，其特征在于，所述方法还包括：

所述第二网络设备接收来自所述第一网络设备的推理需求信息，其中，所述推理需求信息包括所述终端设备获取所述目标推理结果的时间信息；

41.一种通信装置，其特征在于，包括：用于执行权利要求1至18任一项所述的各个步骤的单元；

或者，所述通信装置包括：用于执行权利要求19至27任一项所述的各个步骤的单元；

或者，所述通信装置包括：用于执行权利要求28至40任一项所述的各个步骤的单元。

42.一种通信装置，其特征在于，包括：处理器和存储器，所述处理器和所述存储器耦合，所述存储器存储有程序指令，当所述存储器存储的程序指令被所述处理器执行时，如权利要求1至18中任一项所述的协同推理方法被实现，或如权利要求19至27中任一项所述的协同推理方法被实现，或如权利要求28至40中任一项所述的协同推理方法被实现。

43.一种芯片，其特征在于，所述芯片包括逻辑电路和输入输出接口，所述输入输出接口用于与所述芯片之外的模块通信，所述逻辑电路用于运行计算机程序或指令，以实现如权利要求1至18中任一项所述的协同推理方法，或以实现如权利要求19至27中任一项所述的协同推理方法，或以实现如权利要求28至40中任一项所述的协同推理方法。

44.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储程序，所述程序被处理器调用时，权利要求1至18任一项所述的协同推理方法被执行，

或者权利要求19至27任一项所述的协同推理方法被执行；

或者权利要求28至40任一项所述的协同推理方法被执行。